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本书为北京大学数学科学学院概率统计系“应用多元统计分析”课程使用 
多年的教材，它主要介绍一些实用的多元统计分析方法的理论及其应用，并列 高, 

举了各方面的应用实例，同时还以国际上著名的统计分析软件 SAS 系统作为 
典型工具，通过实例介绍如何处理数据分析中的各种实际问题。 

本书共分十一章。第一章为 绪论; 第二、第三章介绍多元统计分析的理论基 
础一多元正态分布及其参数的估计和检验问题;第四章重点介绍多因变量的 
多元线性回归的有关问题，包括模型、参数的估计及其性质、假设检验、变量筛 
选，以及双重筛选逐步回归 问题; 第五、第六章介绍分类问题（判别与聚类）;第 
七到第九章介绍降维的多变量方法（主成分分析、因子分析和对应分析方 法）； 

第十章讨论两组相关变量的典型相关分析;第十一章介绍近年来发展的偏最小 
二乘回归分析 方法; 并且在每一章内都配有适量的习题。•‘附录”中介绍了本课 
程所需的矩阵代数的有关 内容; 书末附有“部分习题参考解答或提示”，这些都 
将更便于读者自学。 

本书可作为综合大学、工科大学或高等师范学院数学系、应用数学系、经济 
学等相关专业的本科生或研究生教材或教学参 考书； 对于其他领域中从事应用 
统计的工作人员也是一本极好的学习参考书。 ‘ 
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序 言 

自1995年以来，在姜伯驹院士的主持下，北京大学数学科学 
学院根据国际数学发展的要求和北京大学数学教育的实际，创造 
性地贯彻教育部“加强基础，淡化专业，因材施教，分流培养”的办 
学方针，全面发挥我院学科门类齐全和师资力量雄厚的综合优 
势，在培养模式的转变、教学计划的修订、教学内容与方法的革 
新，以及教材建设等方面进行了全方位、大力度的改革，取得了显 
著的成效。2001年，北京大学数学科学学院的这项改革成果荣获 
全国教学成果特等笑，在国内外产生很大反响。 

在本科教育改革方面，我们按照加强基础、淡化专业的要求， 
对教学各主要环节进行了调整，使数学科学学院的全体学生在数 
学分析、高等代数、几何学、计算机等主千基础课程上，接受学时 
充分、强度足够的严格 训练； 在对学生分流培养阶段，我们在课程 
内容上坚决贯彻“少而精”的原则，大力压缩后续课程中多年逐步 
形成的过窄、过深和过繁的教学内容，为新的培养方向、实践性教 
学环节，以及为培养学生的创新能力所进行的基础科研训练争取 
到了必要的学时和空间。这样既使学生打下宽广、坚实的基础，又 
充分照頋到每个人的不同特长、爱好和发展取向。与上述改革相 
适应，积极而慎重地进行教学计划的修订，适当压缩常微、复变、 
偏微、实变、微分几何、抽象代数、泛函分析等后续课程的周学时。 
并增加了数学模型和计算机的相关课程，使学生有更大的选课余 
地。 

在研究生教育中，在注重专题课程的同时，我们制定了 30多 
门研究生普选基础课程（其中数学系18门），重点拓宽学生的专 
业基础和加强学生对数学整体发展及最新进展的了解。 

教材建设是教学成果的一个重要体现。与修订的教学计划相 
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配合，我们进行了有组织的教材建设，计划自〗999年起用8年的 
时间修订、编写和出版40余种教材，这就是将陆续呈现在大家面 
前的《北京大学数学教学系列丛书》。这旮丛书凝聚了我们近十年 
在人才培养方面的思考，记录7我们教学实践的足迹，体现了我 
们教学改革的成果，反映了我们对新世纪人才培养的理念，代表 
了我们新时期的数学教学水平。 

经过20世纪的空前发展，数学的基本理论更加深入和完善. 
而计算机技米的发展使得数学的应用更加直接和广泛，而且活跃 
于生产第一线，促进着技术和经济的发展，所有这呰都正在改变 
着人们对数学的传统认识。同时也促使數学研究的方式发生巨大 
变化。作为整个科学技米基砝的數学，正突破传统的范围而向人 
类一切知识领域滲透。作为一种文化，数学科学已成为推动人类 
文明进化、知识创新的重要因素，将更深刻地改变着客現现实的 
面貌和人们对世界的认识。數学素质已成为今天培养高层次创斩 
人才的重要基础。数学的理论和应用的巨大发展必然引起教学教 
育的深釗变革，我们现在的改革还是初步的。教学改革元禁区，但 
要十分穗重和枳枞；人才培养元止境，既要 遵诚基 本规律，更要不 
断创斩 。我 们现在推出这套丛书，目的是向大家学习„让我们大家 
携起手来，为提高中国数学教育水平和建设世界一流数学强国而 
共同努 

张继平 

2002年5月 18 H 
i - 北京大学蓝旗营 


前 言 

多元统 U •分析足数理统计学30多年来迅速发展起来的一个分 
支。特别在计算机非常普及、各种统 H •分析软件不断推出的今天，多 
元统计分析方法已广泛地应用到社会科学和自然科学的仵多领域 
中。北京大学概率统计系自1985年成 >>:以来， SJf ■•设“应用多元统 
计分析”课程。编者在近 2() 年来教学和科研的某础上，编写 r 《应用 
多元统 U 分析》 15。本 B 的目的足介绍一些实用的 多元统 汁分析 
方法的理论及其应用.并以 R 阮上著名的坏准统〖 I ‘分析软件 SAS 系 
统作为典型工 H ,通过实例介绍如何用统汁软件处埋数据分析中的 
各种实际 M 题。 

本书共奵十•章及附录„第-章“绪论”介绍多元统 U 分析研究 
的对象.应用领域及多元数据的图表4法 s 第二韋介招多 X £态分布 
及其#数的估 H •和性质；第章首先介绍.丨个 t 要分布，即威沙特 
( Wishart ) 分布、 « 特林 （ Hotelling )?’ 2 分布、威尔克斯 （ Wilks ) 分布 
及它们的性质，然后讨论多元£态总体中参数的假设检验问题；第四 
章“回归分析”乘点介绍多因变 tt 的多元线性回 H 的有关问题，包括 
模型、参数的估计及其性质、假设检验、变 M 筛选，以及 ® 重筛选逐步 
回归问题。从第五章至第卜章介绍另一些常用的统 i I •方法，如判別分 
析、聚类分析、士成分分析、闲+分析、对应分析方法以及典型相关分 
析。第十一章介绍近年来发展的偏最小二乘回归分析方法。在•‘附 
录”中介绍 r 本课程所需的矩阵代数的有关内容。书末还给出15中部 
分习题参考解答或提 

“应用多元统 ii •分析”是•门戍 m 性很强的课程。本书不仅介绍 
T 各种常闬的多元统计分析方法的统计背铁和实际意义，说明该方 
法的统 i f •思想、数乎原理及解题步骤，还列举出各方面的应用实例。 
本书将多元统计方法的介绍与在计算机上实现这些方法的统计软件 
(SAS 系统)结合起来，使读者不仅学到统计方法的理论知识，还知 
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配合，我们进行了有组织的教材建设，计划自 1999 年起用 8 年的 
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经过20世纪的空前发展，数学的基本理论更加深入和完善， 
而计算机技术的发展使得数学的应用更加直接和广泛，而且活跃 
于生产第一线，促进着技术和经济的发展，所有这些都正在改变 
着人们对数学的传统认识。同时也促使数学研究的方式发生巨大 
变化。作为整个科学技术基础的数学，正突破传统的范围而向人 
类一切知识领域渗透。作为一种文化，数学科学已成为推动人类 
文明进化、知识创新的重要因素，将更深刻地改变着客观现实的 
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前 言 

多元统计分析是数理统计学30多年来迅速发展起来的一个分 
支。特别在计算机非常普及、各种统计分析软件不断推出的今天，多 
元统计分析方法已广泛地应用到社会科学和自然科学的许多领域 
中。北京大学概率统计系自1985年成立以来，一直开设“应用多元统 
计分析”课程。编者在近20年来教学和科研的基础上，编写了《应用 
多元统计分析》一书。本书的目的是介绍一些实用的多元统计分析 
方法的理论及其应用，并以国际上著名的标准统计分析软件 SAS 系 
统作为典型工具,通过实例介绍如何用统计软件处理数据分析中的 
各种实际问题。 

本书共有十一章及附录。第一章“绪论”介绍多元统计分析研究 
的对象，应用领域及多元数据的图表 示法; 第二章介绍多元正态分布 
及其参数的估计和 性质； 第三章首先介绍三个重要分布，即威沙特 
( Wishan ) 分布、霍特林 ( Hotelling ) r 2 分布、威尔克斯 ( Wilks ) 分布 
及它们的性质，然后讨论多元正态总体中参数的假设检验 问题; 第四 
章“回归分析”重点介绍多因变量的多元线性回归的有关问题，包括 
模型、参数的估计及其性质、假设检验、变量筛选，以及双重筛选逐步 
回归问题。从第五章至第十章介绍另一些常用的统计方法，如判别分 
析、聚类分析、主成分分析、因子分析、对应分析方法以及典型相关分 
析。第十一章介绍近年来发展的偏最小二乘回归分析方法。在“附 
录”中介绍了本课程所需的矩阵代数的有关内容。书末还给出书中部 
分习题参考解答或提示。 

“应用多元统计分析”是一门应用性很强的课程。本书不仅介绍 
了各种常用的多元统计分析方法的统计背景和实际意义，说明该方 
法的统计思想、数学原理及解题步骤，还列举出各方面的应用实例。 
本书将多元统计方法的介绍与在计算机上实现这些方法的统计软件 
( SAS 系统)结合起来，使读者不仅学到统计方法的理论知识，还知 
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道如何解决实际问题。书中全部实例都是用 SAS 系统完成分析计 
算，并且每一章都配有适量的习题，其中大部分习题都附有参考解答 
或提示，以便于读者自学。 

本书是北京大学数学科学学院概率统计系为开设的限选专业课 
“应用多元统计分析”所编写的教材。国内目前虽有一些介绍多元统 
计方法的教材，因偏重的方面不相同，并不能很好地满足要求。国外 
这方面较好的教材目前虽已有中译本，但由于篇幅太大给学生增加 
了经济上的负担。为达到本课程所要求的目的，编者在已编写的讲义 
基础上，通过反复使用、多次修改后编写出版了此书。 

本书的读者对象是理工科类、经济类，特别是统计学学科等各专 
业学习应用统计的本科生，以及其他各个领域中需要进行数据分析 
处理的实际工作者。本书适用于每周3〜4学时、每学期约讲授54〜 
72学时“应用多元统计分析”课程或相关课程的教材，其中有些内容 
可供任课教师酌情选用。 

本书因篇幅关系，应用实例的 SAS 程序没有在正文中给出，正 
文中只列出主要计算结果。为方便读者学习与掌握本书内容，我们另 
准备了《应用多元统计分析》附盘 （3 寸软盘）一张，其内容包括正文 
所有实例的 SAS 程序，各章所有练习题的原始数据及用编程方法解 
答的 SAS 程序，以供读者参考。需要此附盘的读者请从网站 “ ftp :// 
162. 105. 69. 120/ gaohx ” 上下载附盘上的文件，或与北京大学数学 
科学学院（邮编： 10087 D 作者联系。 


惠破 

2003年7月于北京大学 
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第 一章绪 论 

§1.1 弓 I 言 

多元统计分析(简称多元分析)是运用数理统计的方法来研究多 
变量(多指标)问题的理论和方法，它是一元统计学的推广 • 

在实际问题中，很多随机现象涉及到的变量不是一个，而经常是 
多个变量，并且这些变量间又存在一定的联系•我们常常需要处理多 
个变量的观测数据.例如考察学生的学习情况时，就需了解学生在几 
个主要科目的考试成绩.表 1. 1给出某年级随机抽取的12名学生5 
门主课期末考试的成绩 • 


表 1.1 12名学生 S 门课程的考试成绩 


序号 

政治 (D 

语文《 2 ) 

外语 ( x 3 ) 

数学 ( X 4 ) 

物理 ( X 5 ) 

1 

99 

94 

93 

100 

100 

2 

99 

88 

96 

99 

97 

3 

100 

98 

81 

96 

100 

4 

93 

88 

88 

99 

96 

5 

100 

91 

72 

96 

78 

6 

90 

78 

82 

75 

97 

7 

75 

73 

88 

97 

89 

8 

93 

84 

83 

68 

88 

9 

87 

73 

60 

76 

84 

10 

95 

82 

90 

62 

39 

11 

76 

72 

43 

67 

78 

12 

85 

75 

50 

34 

37 


表 1. 1提供的数据，如果用一元统计方法，势必要对多门课程分 
别分析，每次分析处理一门课程的成绩.这样处理，由于忽视了课程 
之间可能存在的相关性，因此，一般说来，丢失信息太多，分析的结果 
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不能客观全面地反映某年级学生的学习情况.本书将要讨论的多元 
统计方法，它同时对多门课程的成绩进行分析.这样的分析对诸课程 
间的关系、相依性和相对重要性等都能提供有用的信息•如果说一元 
统计分析是研究一个随机变量统计规律性的学科，那么多元统计分 
析则是研究多个随机变量之间相互依赖关系以及内在统计规律性的 
一门统计学科. 

由于大量实际问题都涉及到多个变量，这些变量又是随机变量， 
如学生的学习成绩随着被抽取学生的不同，成绩也有变化(我们往往 
需要依据它们来推断全年级的学习情况).所以要讨论多元随机变量 
的统计规律性.多元统计分析就是讨论多元随机变量的理论和统计 
方法的总称.其内容既包括一元统计学中某些方法的直接推广，也包 
括多元随机变量特有的一些问题•多元统计分析是一类范围很广的 
理论和方法. 

就以学生成绩为例，我们可以研究很多 问题： 用各科成绩的总 
和作为综合指标，来比较学生学习成绩的 好坏; 根据各科成绩相近程 
度对学生进行分类(如成绩好的与成绩差的，又如文科成绩好的与理 
科成绩好 的）; 研究各科成绩之间的关系(如物理与数学成绩的关系， 
文科成绩与理科成绩的关 系）； 等等.所有这些都属于多元统计分析 
的研究内容. 

综上所述，多元统计分析是以个变量的《次观测数据所组成 
的数据矩阵 

工11 工12 …工 1/) 

v 工21工22 …工2户 

X = 

• • • 

• • 暑 

• • • 

-工 ”1 工”2 ••• 工 np - 

为依据的.根据实际问题的需要，给出种种方法.英国著名统计学家 
肯德尔 (Kendall) 在《多元分析》一书中把多元统计分析所研究的内 
容和方法概括为以下几个方面. 

1. 简化数据结构(降维问题） 

简化数据结构即是将某些较复杂的数据结构通过变量变换等方 
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法使相互依赖的变量变成互不相 关的； 或把高维空间的数据投影到 
低维空间，使问题得到简化而损失的信息又不太多的.例如主成分分 
析、因子分析，以及对应分析等多元统计方法就是这样的一类方法. 

2. 分类与判别(归类问题） 

归类问题即是对所考察的观测点(或变量)按相似程度进行分类 
(或归类).例如聚类分析和判别分析等方法就是解决这类问题的统 
计方法. 

3. 变置间的相互联系 

(1) 相互依赖 关系： 分析一个或几个变量的变化是否依赖于另 
一些变量的变化？如果是，建立变量间的定量关系式，并用于预测或 
控制一一回归分析. 

(2) 变量间的相互 关系： 分析两组变量间的相互关系一一典型 
相关分析. 

4. 多元数据的统计推断 

这是关于参数估计和假设检验的问题.特别是多元正态分布的 
均值向量及协方差阵的估计和假设检验等问题. 

5. 多元统计分析的理论基础 

多元统计分析的理论基础包括多维随机向量及多维正态随机向 
量，以及由此定义的各种多元统计量，推导它们的分布并研究其性 
质，研究它们的抽样分布理论.这些不仅是统计估计和假设检验的基 
础，也是多元统计分析的理论基础 • 

多元统计分析起源于20世纪初，1928年威沙特 (Wishart) 发表 
的论文《多元正态总体样本协方差阵的精确分布》，可以说是多元分 
析的开端.之后费希尔 （ Fisher) 、 霍特林 （ Hotelling) 、 罗伊 （Roy )、许 
宝驿等人作了 一系列奠基性的工作，使多元统计分析在理论上得到 
迅速的发展，在许多领域中也有了实际应用 • 由于用统计方法解决实 
际问题时需要的计算量很大，使其发展受到影响，甚至停滞了相当长 
的时间 . 20世纪50年代中期，随着电子计算机的出现和发展，使得 
多元统计分析在地质、气象、医学、社会学等方面得到广泛的应用 .60 
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年代通过应用和实践又完善和发展了理论，由于新理论、新方法的不 
断出现又促使它的应用范围更加扩大 . 70年代初期在我国才受到各 
个领域的极大关注，近30年来我国在多元统计分析的理论研究和应 
用上也取得了很多显著成绩，有些研究工作已达到国际水平，并已形 
成一支科技队伍，活跃在各条战线上. 

§ 1.2 多元统计分析的应用 

多元统计分析是解决实际问题的有效的数据处理方法.随着电 
子计算机使用的日益普及，多元统计方法已广泛地应用于自然科学、 
社会科学的各个方面.以下我们列举多元统计分析的一些应用领域. 

一、 教育学 

n 个考生报考北京大学概率统 计系. 每个考生参加 f 门课（语 
文、数学、政治、外语、物理、化学…… ） 的考试，各门课的成绩记为 
^.I ^ ya »— , yip(i = 1,2, — , n ). 又每个考生在高中学习期间， w 门主 
要课程成绩为 ， x , 2 ，…， x ,„ ( 2 == 1，2，…，《 )• 经过对这些大量的资料 
作统计分析，我们能够 得出： 

( 1 ) 高考成绩和高中学习期间成绩的关系，即给出两组变量线 
性组合间的关系，从而可由考生在高中学习期间的成绩来预测高考 
的综合成绩或某些科目的成绩. 

(2) 给出考生成绩次序排队的最佳方案（最佳组合).总分可以 
体现一个考生成绩好坏，但对报考概率统计系的学生，按总分从高到 
低的顺序录取并不是很合适的，如果按适当的权重加权求和，比如数 
学、物理、外语的权重相对高些，然后按加权和的顺序录取也许更合 
适些. 

此外利用《个学生在高中学习期间 w 门主要课程的考试成绩， 
可对学生进行分类，如按文、理科成绩分类，按总成绩分类等.若准备 
给优秀学生发奖，那么一等奖、二等奖的比例应该是 多少？ 应用多元 
统计分析的方法可以给出公平合理地确定. 
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二、 医学 

医生对病人的诊断是靠对病人观测若干症状后来综合评定的. 
如一个人发高烧，医生根据他的体温高低、白血球数目及其他症状来 
判断他是患感冒、肺炎还是其他疾病.再比如某人发现其腹部有肿 
瘤，医生根据肿瘤的大小、生长的速度、边界是否清楚，以及质硬或软 
等症状来判断肿瘤是良性或恶性. 

为了判断更为准确可靠，事先应有一批经专家确诊或手术后经 
病理化验确诊的病例资料，根据这批资料利用多元统计方法可建立 
诊断的准则（即专家系统)•对来就诊的病人，按专家系统的要求，观 
测若干项指标后，根据诊断准则，即可作出诊断. 

三、 气象学 

全国各地建立了很多气象站，在不同时间各气象站都记录了降 
雨量、气温、气压、湿度、风速、风向等气象指标资料.对这些资料作统 
计分析，可以得出： 

(1) 指标间的关系，如降雨量与前一天的气温、气压、湿度等的 
关系，利用该关系可对降雨量作预报. 

(2) 不同地点气象指标之间的关系，如某地有气象站，长期记录 
各项气象指标的资料.今计划在该站附近建一大型化工厂，厂区的气 
象条件是我们关心的，而在此处新建一气象站又不可能.最后采用的 
办法是在该厂区临时建一个观测站，与气象站同时测定气象 指标; 然 
后利用这些资料用多元统计分析方法建立两地气象指标的关系，以 
达到今后可由气象站的气象资料来预报该厂区的气象情况. 

四、 环境科学 

(1) 为了了解某大型化工厂对环境的污染程度，在厂区建立很多 
监测点，每天定时测定各种污染气体的浓度.用统计分析方法分析处 
理这些资料，可对厂区按污染情况分为几类，如分为严重污染、一般污 
染和轻污染 三类; 并为今后监测点的布局提供既合理又经济的方案. 
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(2) 许多学者研究了洛杉矶地区大气中污染物质的浓度.在较 
长的一段时间内，每天定时测定该地区与污染有关的几个指标值，利 
用多元统计检验的方法，首先判断洛杉矶地区空气污染程度在一周 
内是固定不变或周末与平时有显著差异;其次对这庞杂的观测数据 
用一种易解释的方法加以归纳化简 - 

五、 地质学 

随着电子计算机的普及及地质科学向定量化发展，地质学和数 
学（主要是多元统计方法)结合起来产生了边缘学科——数学地质， 
多元分析是其主要内容之一.王学仁先生在《地质数据的多变量统计 
分析》一书中介绍了多元分析方法及其在地质学中的应用•应用多元 
统计方法处理各种地质观测数据，对成矿规律的评价、矿产预测、构 
造解释推断、勘探工程部署等等都得出了一些定量的依据，并获得了 
一些找矿信息. 

六、 考古学 

(1) 考古学家根据一群坟墓中的陪葬品（特别是陶瓷和珠宝）， 
利用它们在式样和装饰上的差别，把它们按时间顺序排列起来- 

(2) 考古学家在古代墓地上，挖掘出若干个头盖骨，它们可能都 
是来自同一种族，或两个对抗种族(战死的战友和敌人都可能被埋在 
同一个坑内）.对每个头盖骨可测得多种数据，利用头盖骨的数据来 
判断所属的种族或 性别; 并研究最佳的测量法及最少的测量项目. 

七、 服装工业一一服装的定型分类问题 

一个服装公司希望生产足够多的成衣以适应大多数顾客的要 
求，而且使不合身的和卖不出去的服装尽量减少，这样不仅可满足社 
会需要且厂方也才可能多赚钱.为此目的，首先在各地做抽样调查， 
对被调查人测量其身体的几十个部位的尺寸，然后对庞大的调查资 
料用多元统计方法分析处理，确定一种服装究竟需要有几种型号，每 
种型号服装的比例是多少，由身体的哪几个主要部位的尺寸决定 • 
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八、 经济学 

a ) 构造中国国民收入的生产、分配与最终使用的计量经济模 
型•例如根据我国几十年来财政收入与国民收入、工农业总产值、人 
口、就业人口、固定投资等因素相关，利用回归方法建立预测模型，以 
用于对今后的财政收入作预测. 

(2) 在商业经济中，常常需要将很复杂的数据综合成商业指数 
形式，如物价指数、货币工资比、生活费用指数、商业活动指数等，用 
主成分分析可以从多个变量中构造出所需的商业指数. 

(3) 为了研究不同地区农民收支的分布规律，抽样调查了全国 
28个省、市、自治区的农民生活消费支出情况，如食品、衣着、燃料、 
住房、生活用品、文化生活等的消费.用聚类分析方法对28个地区分 
类，根据分类结果还可进一步研究各类地区农民的生活水平、富裕程 
度，以便进一步研究经济发展对策. 

(4) 在经济学中，根据人均国民收入、人均工农业产值、人均消 
费水平等多种指标来判定一个国家的经济发展程度所属类型 • 

九、 农业 

(1) 有77个不同地区，每个地区记录多种农作物的收获量，用多 
元统计方法对各个地区的总生产效率进行比较，并对不同的农业区 
域进行分类. 

(2) 为了节省能源，对某地农用的手扶拖拉机的能源消耗进行 
抽 样调査•调查的内容为拖拉机在田间、运输、排灌、加工等作业时的 
燃油耗，以及在册月数、年平均更换零件数及平均燃油耗.通过对调 
査资料作统计分析，达到对拖拉机的平均燃油耗作预测并对拖拉机 
进行分类，划分为淘汰类、大修类、小修类和继续使用类. 

十、社会科学 

青少年犯罪问题是一个很大的社会问题•对待青少年犯罪，我们 
采取“以防为主、防重于治”的原则.要预防犯罪，除了加强经常性的 
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教育外，还必然提出预测犯罪的问题.如对青少年犯罪心理和行为倾 
向性在其犯罪行为发生之前便能进行预测，争取把它们消灭在萌芽 
状态，才能做到实际预防. 

为此目的，1981至1982年间中央教育科学研究所等几个单位 
协作进行了调查研究工作，调查对象为一般中学生，以及工读学校、 
少管所、劳教农场和劳改农场的青 少年. 调査内容有两大方面 ：心理 
因素（如物质追求感、隔离感、无目的感、团伙义气感……）和外部因 
素(如性别、家庭平均收入、每月零花钱……)共25项指标，用多元统 
计方法分析处理这一批资料，找出青少年犯罪诸因素间的互相关系 
及其与犯罪行为的内在联系，并用反映数量关系的数学模型表示出 
来，用以描述青少年犯罪这一社会现象在个体身上的内在联系或变 
化规律，并借助这个模型对其他个体特征发展的趋向性进行比较科 
学的预测. 

+—、文学 

自从30年代末英国著名的统计学家尤尔 (Yule) 把统计方法引 
入到文学词汇的研究以来，这个领域已经取得不少进展，其中最有名 
的是 Mosteller 与 Wallace 在60年代初对美国立国三大历史文献之 
一的《联邦主义者》文集的研究. 

在1985至1986年间复旦大学统计运筹系的李贤平教授对我国 
的名著《红楼梦》的著作权进行研究•使用的统计方法主要是多元分 
析.先选定数十个与情节无关的虚词作为变量，把《红楼梦》一书中的 
120回作为120个样品，统计每一回（即每个样品）选定的这些虚词 
(即变量）出现的频数.由此得到的数据阵作为分析的依据 • 

在《红楼梦》著作权的研究中使用较多的方法是聚类分析、主成 
分分析、典型相关分析等方法，由分析结果可以看出： 

(1) 前80回和后40回截然地分为两类，这证实了前80回和后 
40回不是出于同一个人的手笔； 

(2) 前80回是否为曹雪芹所写？通过用曹雪芹的另一著作，做类 
似的分析，结果证实了用词手法完全相同，断定为曹雪芹一人手笔； 


(3) 而后40回是否为高鹗写的？分析结果发现后40回依回目 
的先后可分为几类，得出的结论推翻了后40回是高鹗一人所写.后 
40回的成书比较复杂，既有残稿也有外人笔墨，不是高鹗一人所续. 

以上这些论证在红学界引起轰动.他们用多元统计分析方法提 
出了关于《红楼梦》作者和成书过程的新学说. 

李贤平教授等还把这类方法用于其他作家和作品，结果证明统 
计方法的分辨能力是很强的. 

+二、其他 

多元统计分析方法在其他很多领域中也有它的应用.比如体育 
科研、军事科学、生物学、心理学、生态学、保险科学、火警预报、地震 
预报、中医阴阳学说研究等. 


§1.3 多元统计数据的图表示法 

图形有助于对所研究的数据的直观了解，一元或二元数据的一 
维或二维图形容易得到，三维图形虽也可以画出，但并不方便.三维 
以上图形怎么表示?许多统计学家给出了多元数据的图示方法，但这 
方面的研究还处于不成熟状态，目前尚未有公认的方法.这里介绍几 
种国际上近几十年来出现的方法，其中有一些依赖人工容易实现，但 
是有一些方法若是没有计算机的帮助，恐怕较难实现. 

设变量个数为/ ■，观 测次数为〃，第々次观测值记为 

=(工“ ， x w ，…，工^) (k = 1，2广.，《)， 

n 次观测数据组成的矩阵记为 X =(〜)„”• 

— 、轮廓图 

轮廓图的作图步骤为： 

(1) 作直角坐标系，横坐标取/>个点，以表示 f 个 变量； 

(2) 对给定的一次观测值，在/>个点上的纵坐标(即高度）与对 
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应的变量取值成 正比； 

(3) 连结此/>个点得一折线，即为该次观测值的一条轮 廓线； 

(4) 对于《次观测值，每次都重复上述步骤，可画出 n 条折线， 
构成 n 次观测值的轮廓图. 



图 1.1 4名学生学习成缋的轮廊图 

如图 1.1 中4条折线为由表 1.1 给出的序号为1、2和11、12这 
4个学生学习成绩的轮廓线.由该轮廓图可直观看出，哪几个学生成 
绩相似、哪些属优秀、哪些中等、哪些 较差; 对各门课程而言，也可直 
观地看出各课程成绩的好坏和分散情况等等.这种图形在聚类分析 
中颇有帮助. 


二、雷达图 


雷达图的作图步 骤是： 

(1) 作一圆，并把圆周分为/> 等分； 

(2) 连结圆心和各分点，把这/>条半径依次定义为各变量的坐 
标轴，并标以适当的 刻度； 

(3) 对给定的一次观测值，把/>个变量值分别取在相应的坐标 
轴上，然后将它们连结成一个/> 边形； 

(4) n 次观测值可画出《个/>边形. 

这种图形既像雷达荧光屏上看到的图像，也像一个蜘蛛网.因此 
有人称为雷达图，也有人称为蜘蛛图 • 图 1. 2为表 1. 1中序号为1和 
12的学生学习成绩的雷达图.各科都达到100分的学生对应着一个 


政治 



面积最大的正五边形，如学生序号为1的图形接近正五边形，因此是 
学习成绩优秀的 学生; 另外，学习成绩差的学生，其图形面积也小，如 
学生序号为12的就是如此，而且其图形明显偏右上方，这意味着该 
学生的数学、物理和外语成绩极差,而语文和政治还算过得去. 

当观测次数《较大时，为了获得较好的效果，每张图可以只画少 
数几次观测值，甚至只画一次观 测值; 为使图形效果更好，在雷达图 
中适当分配变量的坐标轴并选取合适的尺度是十分重要的.如在学 
生成绩的雷达图中，有意识地把理科成绩分配在左边坐标轴上，文科 
在右边，则可根据图形偏左或偏右看出该学生是偏理还是偏文. 


三、调和曲线图 


从数学上看，较为完美的多元数据图表示方法可能是 Andcews 
在1972年提出的三角多项式表示法，其思想是把多维空间中的一个 
点对应于二维平面上的一条曲线. 

设维数据 X =(： n ， 而 ，…，: rj (注： 上角表示转置，即行 
(列)转换为列(行 )） ，则对应的曲线是 


fx(t) 


^2 


+ x 2 sin ^ + x 3 cost + x 4 sin 2^ + x 5 cos 2 t - \- 


(― 7T ^ ^ ^ 7T). 

上式当 （ 在区间（一 K ，7 C ) 上变化时，其轨迹是一条曲线. 

例如表 1. 1学生成绩数据中，学生1对应的曲线为 
99 


/i(0 




+ 94 sim + 93 cos ^ + 100 sin 2^ + 100 cos 2 f , 
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学生12对应的曲线为 

/ 12 (0 = -^1= + 75 sinf + 50 cos ? + 34 sin 2« + 37 cos 2 i , 

vT 

它们的图形如图 1.3. 



图 1.3 两名学生学习成绩的调和曲线图 


n 次观测数据对应《条曲线，画在同一平面上就是一张调和曲 
线图.在多项式的图表示中，当各变量的数值太悬殊时，最好先标准 
化一例如标准差标准化、极差标准化或极差正规化等后再作图. 
Andrews 证明了三角多项式图有许多很好的性质（见参考文献 
[ 1 ]). 

作调和曲线图时一般要借助计算机作图，这种图对聚类分析帮 
助很大.如果选择聚类统计量为距离，则同类的曲线抒在一起，不同 
类的曲线拧成不同的束，非常直观 • 

四、散布图矩阵 

当 f = 2 时，常把《次二元观测数据点在平面上生成一张散布 
图，由散布图可以直观地看出变量 X 与7之间的相关关系及相关的 
程度.当 p > 2 时，我们也想借助散布图来直观给出变量之间，观测 
点之间的关系，可以对个变量两两配对生成一张散布图矩阵.通 
过这张图，不仅可以了解到每两个变量间的相关情况，在 SAS 系统 
中，还可通过“刷亮”方法来找出异常点 （见参 考文献[ 21 ]).下面图 
1. 4是12名学生5门课程成绩的散布图矩阵. 
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图 1.4 12名学生学习成绩的散布图矩阵 


五、其他方法 

在多元数据的图表示法中，还有星座图、脸谱图、装饰图等表示 
法.最为浪漫的可能是脸谱图，它把多元数据表示成一张张脸谱图. 
脸的轮廓由上下两个椭圆构成，这些椭圆的长短轴及离心率等均由 
多元数据中某些变量来 刻画； 另一些变量决定鼻子长度，嘴的位置及 
圆弧的长度与向上还是向下，眼睛的大小，眼珠的位置，眉毛的角度 
等，如果变量很多，脸谱可以刻画得细致些，变量不多，则把一部分器 
官形态固定，只让另一部分器官变化.在实际应用中，脸谱图也有发 
展，如在脸谱上加眼泪以表示很坏情况的 出现; 还可以在脸谱基础上 
加上体型，用一些变量来决定体型的胖瘦和高矮等. 

最后我们指出，多元数据图表示法的难点在于变量过多.如果有 
一种方法可以把高元数据投影到二维空间（平面）中去，并且在投影 
过程中不会过多地损失原有数据信息的话，就可以使用通常方法在 
平面上画出这些本来是高维数据的图 形来. 后面将要介绍的主成分 
分析等方法就是一些降维的方法. 
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习题一 

1-1 为了研究人体的心肺功能，对31个成年男子测量了肺活 
量 ( OXY ) ，并且记录了他们的年龄 ( age )、 体重 ( weight ) ，以及简单训 
练后的测试 数据： 跑 1. 5英里的时间 （ time )、 休息时的脉搏 
( spulse ), 跑步时的脉搏 ( rpulse ) 和跑步时记录的最大脉搏 
( mpulse ) ，共7项指标(数据见表 1. 2). 

(1) 分别绘制 OXY 与 time 和 age 的散布图，从图中可得出什 
么结论？ 

(2) 绘制7项指标的散布图矩阵，从这里能否直观看出一些结 
论； 

(3) 绘制序号为1，2,21，22的4个人的轮廓图和雷 达图； 

(4) 绘制序号为1,2,21,22的4个人的调和曲线图（放在同一 
张图上). 


表 1.2 肺活量与其他指标的数据 


序号 

age 

weight 

time 

spulse 

rpulse 

mpulse 

OXY 

1 

57 

73.37 

12.63 

58 

174 

176 

39. 407 

2 

54 

79.38 

11.17 

62 

156 

165 

46. 080 

3 

52 

76.32 

9.63 

48 

164 

166 

45. 441 

4 


70.87 

8. 92 

48 

146 

155 

54. 625 

5 

51 

67.25 

11.08 

48 

172 

172 

45.118 

6 

54 

91. 63 

12. 88 

44 

168 

172 

39. 203 

7 

51 

73.71 

10.47 

59 

186 

188 

45. 790 

8 

57 

59.08 

9. 93 

49 

148 

155 

50. 545 

9 

49 

76.32 

9. 40 

56 

186 

188 

48. 673 


48 

61.24 


52 

170 

176 

47. 920 

11 

52 

82.78 


53 

170 

172 

47. 467 

12 

44 


10.13 

45 

168 

168 

50.541 

13 

45 

87.66 


56 

186 

192 

37. 388 

14 

45 

66. 45 

11.12 

51 

176 

176 

44. 754 

15 

47 

79. 15 

10.60 

47 

162 

164 

47. 273 

16 

54 

83. 12 

10. 33 

50 

166 

170 

51.855 


习題一 15 


(续表) 


序号 

age 

weight 

time 

spulse 

rpulse 

mpulse 

OXY 

17 

49 

81.42 

8.95 

44 

180 

185 

49. 156 

18 

51 

69. 63 

10.95 

57 

168 

172 

40. 836 

19 

51 

77.91 

10.00 

48 

162 

168 

46. 672 

20 

. 48 

91.63 

10. 25 

48 

162 

164 

46. 774 

21 

49 

73. 37 

10. 08 

76 

168 

168 

50. 388 

22 

44 

89. 47 

11.37 

62 

178 

182 

44. 609 

23 

40 

75.07 

10.07 

62 

185 

185 

45.313 

24 

44 

85. 84 

8. 65 

45 

156 

168 

54. 297 

25 

42 

68.15 

8.17 

40 

166 

172 

59. 571 

26 

38 

89. 02 

9.22 

55 

178 

180 

49. 874 

27 

47 

77. 45 

11.63 

58 

176 

176 

44.811 

28 

40 

75. 98 

11.95 

70 

176 

180 

45.681 

29 

43 

81.19 

10.85 

64 

162 

170 

49. 091 

30 

44 

81. 42 

13.08 

63 

174 

176 

39. 442 

31 

38 

81. 87 

8. 63 

48 

170 

186 

60. 055 































§2.1 随机向量 17 


第二章多元正态分布及参数的估计 


在多元统计分析中，多元正态分布占有相当重要的地位.这是因 
为许多实际问题涉及到的随机向量服从正态分布或近似服从正态分 
布; 当样本量很大时，许多统计量的极限分布往往和正态分布有关. 
此外，对多元正态分布，理论与实践都比较成熟，已有一整套行之有 
效的统计推断 方法. 基于这些理由，我们在介绍多元统计分析的种种 
具体方法之前，首先介绍多元正态分布的定义、性质及多元正态分布 
中参数的估计问题. 


§ 2. 1随机向量 

本课程所讨论的是多变量总体.把/>个随机变量放在一起得 
为一个户维随机向量，如果同时对个变量作 

def 

一次观测，得观测值： （ X „ ，工 12 ,… ， ar 1 A )=^ X ' ⑴，它是一个样品.观测 
n 次得”个 样品： X ' w ={ x n , x i2 ,-'' ., x ip ) G = l ，2, …，71)，而 n 个样品 
就构成一个样本. 

常把 n 个样品排成一个《乂户矩阵，称 为样本数据阵 (或 样本资 
料阵），记为 



7" • • • t 

上 11 乂 乂 1/» 


卜)] 

x= 

T T • • • 'Tr 

乂 21 乂 22 乂 2/» 

def 



• • • 

-r- nr ••• nr 


X) - 


矩阵 X 的第 行： X\ n = { x n , x i 2 ，―, x ip ) ( z '= l ，2，...， n ) 表示对第 f 


个样品的观测值，在具体观测之前，它是一个/>维的随机向量.矩阵 
X 的第 j 列 

x \i 

Xj = 1 0. = 1，2,…，户） 


表示对第 j 个变量的《次观测，在具体观测之前，它是一个”维随机 
向量; 而样本数据阵 X 是一个随机阵. 

在多元统计分析中涉及到的都是随机向量，或是多个随机向量 
放在一起组成的随 机阵. 本节首先来回顾一下随机向量的有关内容. 

一、 随机向量的联合分布，边缘分布，条件分布 

1. 联合分布 

i ^： X =( Xi , X 2 , — yXp )' 户维随机向量，称声元函数 

— ,x t ) = P{X x < 工 ”… ,X P ^ x p ) 

为 X 的联合分布函数. 

若存在非负函数/(力，0： 2 ，…，、），使得随机向量 X 的联合分布 
函数对一切(•^，巧，…， • r/G 均可表示为 

p r x P 

— , x t ) = … I /( x ,, ••- , 

J — oo J — oo 

则称 X 为连续型随机向量，称/(^，^，…， X ,)为 X 的联合概率密 
度函数，简称为多元密度函数或密度函数. 

多元密度函数/(^，1 2 ，"•，: r ,) 满足以下两条 性质： 

(1) /(力 ，…， 对一切实数 x 1 , x 2 , — , x p ; 

f »00 

(2) J ... /(x, ,••• ,x p )dx 1 --dx p = 1. 

2. 边缘分布 

称随机向量 X 的部分分量 ( Xq ，…， X , m ) ( l < m </>) 的分布为 

边缘分布. 
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量叉= 


设 X ⑴为 r 维随机向量 ， X i 2) 为 p - r 维随机向量.若/>维随机向 
X ⑴1 

，则 x (1) 的边缘分布为 


Lx <2) 


/( 工 ! ， … ， X 户 ) dr r+1 •"dr ? ， 


f l (x° ) = /l (^j , ••• ,x r ) = j - 

X (2) 的边缘分布为 

= f 2 {x r+l ， ―, x p ) = I … /(Xj ,••• yX^dx^-dx^ 
例 2. 1. 1 设二维随机向量叉==(；^，义 2 )'的联合密度函数为 


f(x l ,x 2 ) = —e 


-1( x l +4) 


1 + XiX 2 e 


r( 


试求 A 和 x 2 关于随机向量 x 的边缘密度. 

解 首先可验证/(^，^)满足联合密度函数的两条性质.再利 
用边缘密度的计算公式，有 


/ 1 ( x 1 ) = 


\{4+4) 




2兀 


1 + x 1 x 2 e 

u. 

厂 e ~^ dx 2 + Xje 

1 J 一 oo 


-含 （ ^1+4) 


dx 2 


x 2 e Xz dx 2 


^ e _ 2 x i [ V 2 Jt + 0] 


V 2 tt 


-\ x \ 


即兄〜_，1). 

类似可得出 X 2 〜#(0，1). 


3. 条件分布 

设叉 (1) 为 r 维随机向量， X (2> 为 p - r 维随机向量.若/>维随机 
— « X " ⑴ "1 

向量 x= (2) ，则当给定 X (2) 时，称 X (1) 的分布为条 件分布 .当X 

的密度函数为 /(x a) ,x <2) ) 时，给定 X (2) 时 X (1> 的条件密度为 
/ W )) = /U ⑴，) // 2 ( x ( 2 ))， 

其中 / 2 U (2) ) 是 X (2) 的密度函数 • 

4. 独立性 

设兄，…，&是夕个随机变量,X,.的分布函数记为 F,(x,) (£ = 


1，…， />); FOi ，…，巧)是(兄 ，…， X〆的联合分布 函数. 若对一切 
实数 A ，…， A ， 

■ F (: Tj ，…，:*: # ) = F ^ ix^—F p { xp ) 

均成立 \ 则称尤 ，…， X, 相互 独立. 在连续型随机变量的情况下， 
兄，…， x , 相互独立，当且仅当，…， X,)'的联合密度函数 
/Oi ，…，满足 

/( Xi ，—, X p ) = / 八工 , ） …/〆 〜） 

对一切实数 A ，…， h 均成立，其中 /,. U,) 是 兄的密 度函数 (t_ =1， 
…， />)• 

在例 2.1. 1中随机向量X的两个分量X,和 X 2 互相不独立. 


二、随机向量的数字特征 

设(兄，… ， x,)' ， ([ ，… ，y,)' 是两个随机向量. 

1. 随机向量 x 的均值向量 

若 e ( x ,)= a 存在，则称 


E(X) = 

'Eix.y 

— 

>r 


_E(X,)_ 




为随机向量X 的均值向置. 


2. 随机向量 X 的协方差阵 

若 X ,和 X ,的协方差 Cov (兄，毛)存在 ( f ， j = l ， … ，/0，则称 
D(X)= E[(X - E(X))(X - E(X))'] 

'CoviX^XO Cov(X”X 2 ) … Cov(X,,X ? )' 
Cov(X 2 ,Xi) Cov(X 2 ， X 2 ) … Cov(X 2 ， X 户） 

-CovCXpjXj) Cov(X"X 2 ) … CoviXpyX,,). 
def _ 

为随机向量 x 的协方 差阵. 
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3. 随机向量 x 和 y 的协方差阵 

若 X ,和乙的协方差 Cov ( X ,，10) 存在(£ = 1， 

9) ，则称 

COV(X,Y)= E[(X - E(X))(y - E(Y)V] 

-covcx^y,) Cov(x lf y 2 ) … Covcx^y,)- 
covcx^y,) Cov(x 2 ,r 2 ) … Cov(x 2 ,y g ) 

—CovCX”!^) CovCX”! ％ ) … Cov(X p ,Y q ) - 
为随机向量 X 和 Y 的协方差阵.若 

cov ( x , y > = o (其中 0 表示零矩阵）， 

则称 X 与 y 不相关. 


4. 随机向量X的相关阵 

若X和 r, 的协方差 Cov(X，y,) 存在 (D=l，2, …4)，称 i?= 
(r,.p px ，为X的相关阵，其中 


r a 


这里 


Cov(X,,X ; ) 




Vvar(X,) VvarCX,) 


U’j = 1，2,… ，户） • 


def 

Var(X t ) = CovCX^X,) ^=<t„ , 

为随机变量兄的方差，而 v^； 为 ；C, 的标准差(纟=1，2^"，/>). 
若记7 1/2 =(1—("'/^，*",^ / ^)为标准差矩阵，则 
2 = V m RV m 或 R = <y 1/2 ) _1 _s(v 1/2 ) -1 . 


三、均值向量和协方差阵的性质 

性质1设 x ， r 是随机向量，是常数矩阵，则 
E(AX) = AE(X), 

E(AXB) = AE(X)B, 

D(AX) = AT>{X^)A', 

COW {AX, BY) = ACOV(X,Y)B'. 


证明 我们只证明 最后一 公式： 

COV { AX , BY ) = E[(AX — EMX ))( jB 7 - E (5 Y )> , ] 

= E [ A(X — E ( X))(y - E ( y )) , fi , ] 

= A [ E(X - E ( X))(y - E ( y >) , ]£ , 

= ACOV ( X ， y ) B '. (证毕） 

性质 2 若 X , Y 相互独立，则 COV ( X ， y )= C »_ ; 反之不一定 
成立. 

性质3随机向量义=(兄，义 2 ，…，的协方差阵 D ( X )=5 
是对称非负定矩阵. 

证明因为 cov < x ， x ,)= cov ( x ,， x ,)， 所以对任给 
a = ( W ，… , a p y ，有 

■«r 

(〜，… ，〜) E[(X - E ( X))(X — E ( X ) y ] i 

- Otp - 

= E|>(X - E ( X )) - (X - E ( X ))， a ] 
== E [( a , ( X - E ( X ))) 2 ]>0, 

所以即 2 为非负定矩阵. （证毕) 

性质 4 其中 L 为非负定矩阵. 

证明由于(非负定），利用线性代数中实对称阵的对角 
化定理，存在正交矩阵 r ， 使得 

[ Al o ] 

■ s=r ••• r (其中人> 0 ) 

-° A ^_ 



0 — 



0 

r 


r • r 

••• 



- 0 41- 


0 

v^- 


= L 2 ， 

其中乙=厂(1—(^/17，.-.，^；)厂，，且1 = 1/，所以 L^O. (证毕) 

当矩阵2>0(正定）时，矩阵 L 也称为2的平方根矩阵，记为 
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^ 1/2 .若令乂 =厂出叫(^；，一，^；)，则协方差阵2还有如下分解 : 
2=AA' (>1 为非退化方阵). 


§2.2 多元正态分布的定义与基本性质 

在一元统计中，若[/〜 W(0，1) ,则 f； 的任意线性变换为 X=aU 
+ //〜 W(//，<T 2 ) .利用这一性质，可以由标准正态分布来定义一般正 
态 分布： 若 f/ 〜 iV(0，l )， 则称的分布为一般正态分布， 
记为X〜 iVC//，〆). 此定义中，不必要求 <r>0, 当 a 退化为0时仍有 
意义.把这种新的定义方式推广到多元情况，可得出多元正态分布的 
第一种定义. 

定义 2. 2.1 设17=0^， …， t ；,)' 为随机向量， ，相互 
独立且同 N(0，1) 分布; 设 // 为 /> 维常数 向量， A 为/ >X 9 常数矩阵， 
则称 X ^ AU + fi 的分布为/>元正态分布，或称 X 为 p 维正态随机 
向量，记为X〜 

简单地说，由 g 个相互独立的标准正态随机变量的一些线性组 
合所构成的随机向量的分布，称其为多元正态分布. 

在一元统计中，若X〜，则X的特征函数为 

f ( t ) = E(e uX ) = exp itfj . ― 音 f 2 <r 2 . 

将其推广到多维正态随机向量的情况有如下性质. 

性质 1设17=0/,，…， C/,)' 为随机向量， tA， …， f/, 相互独立 
且同 W(0，1) 分布;令 X=Af/+p， 则X的特征函数为 

r 1 ' 

= exp it ' ^ — — t ' AA't . 

证明 根据随机向量特征函数的定义和性质，可知X的特征函 

数为 

少 X(0= E(e tfX ) = E ( e y(,I+ ^) 

= exp(ifV) . ECe ^^) (令 s’ = 〆/ = 0! ，…， s,)) 

==exp ( it ' fi ) - 


= exp ( ifV ) . XT E ( eU/0 )( 因 tA ， …，％ 独立） 

)=1 

= exp ( u » ♦ 只 exp ( — + s 】) (因 [/) 〜 7 V (0，1)) 

= exp ( i〆 // — - y/sj = exp ( i〆 // — -^-t'AA't^. (证毕) 
定义 2. 2. 2 若/■维随机向量 X 的特征函数为 

= exp [ k > — (2 > 0) ， 

则称 X 服从/>元正态分布，记为 X-~N P (/i,S). 

性质2设 X 〜为以户常数矩阵，^为；维常向 
量，令 Z = SX + rf ， 则 Z〜N s (BfJt+d，BEB'). 

证明因2>0,2可分解为：2==乂^1'，则由定义2.2.1知 

X—^AU + m U 为 / >Xg 实矩阵）， 


其中且 ( A ， …， f /, 相互独立同 AT (0，1) 分布.又 

Z = BX + d — B{AU + ") + J = BAU + (£// + d). 

由定义 2. 2. 1可知， Z 〜 N 人 Bfi 七 d， ( B 4) (^4)') ，即 

Z - N s (Bfi + d,BSB'). (证毕) 

性质2指出正态随机向量的任意线性组合仍服从正态分布. 

rx a> > 

推论设 x = L x (2 )^_ r 〜 i ^ (户， 2) ， 将… 2 剖分为 




-户 


( 1 )- 

( 2 ) 


P — r 


2= 


-^n 

~^21 


2 1? 
■^22」户 


则 X ⑴〜 AU〆 1 )，^)， X( 2 ) 〜 N P _Af/ 2 )，S 22 ). . 

证明取 ^ = ( J r i O ) (其中 A 为 r 阶单位矩阵， O 为 rX (/»- 
r ) 零矩阵）， r 维向量不= 0,由性质2即得 


X a) = B,X + ~ JV r (^ 1) ,2„). 


① i 表示两边的随机向量眼从相同的分布. 
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类似地，取 S 2 =( C > 丨 l p - r ) (其中 O 为 (/> 一 r ) Xr 零矩阵），户 一 r 维 
向量 A = 0，则 

x (2) = B 2 X + 4〜 N 卜乂 〆 n ， I 22 ). (证毕） 

此推论指出，多元正态分布的边缘分布仍为正态分布.但反之， 
若随机向量的任何边缘分布均为正态分布，也不一定能导出该随机 
向量服从多元正态分布(见例 2.1.1). 

性质3若 X 〜 7^(//,!：), 则 E ( X )=//， D(；Q = X 
证明因可分 解为： 2=4乂'，则由定义2.2.1可知 

X =^= AU + /I (A 为/ > X 9 实矩阵）， 

其中[；=«/,，•••, (7, V ， 且 ( A ，."，％ 相互独立同 iV (0， l ) 分布. 

由一元正态分布的知识可知： E ((7,) = 0, Var (?7,) = l (« = 1, 
…， g ), CoviUi , Uj ) = 0 故 E ( C 7) = 0 ? (0, 表示 g 维零向量）， 

D ( t /)=/,. 利用均值向量和协方差阵的有关性质 可得： 

E ( X ) = E(AU + 户）= AE ( U ) + 户=//， 


^f(l) = E(e ,e ) = E(e^ x ) = <P x (t) = exp[k’；u — St , 

由定义2.2.2可知，叉〜％(户，2). (证毕) 

定义 2. 2. 3 若/>维随机向量 X 的任意线性组合均服从一元正 
态分布，则称 X 为 p 维正态随机向量. 

在概率论中大家知道，一元正态随机变量的密度函数是 

1 ( x — fi ) 2 

= ■ ■ _ e 2 ^ (<T > 0, — oo <； x < oo). 

V 2 jc<t 

这个式子又可改写为 

^ 2 ^ 1 / 2 ^ -含 Cr — 户)’0 2 )— — 戶)_. 

作为一元正态随机变量的推广，以下来导出多维正态随机向量的联 
合密度函数. 

性质5设 X 〜 M (卢,2)，且2>0(正定），则 X 的联合密度函 

数为 


D ( X ) = D(AU + m ) = D ( AC 7) = AI q A ' = (证毕) 

此性质给出多元正态分布中参数 P 和2的明确统计意义. 

性质4 设 X =( X t ，…， X ,)'为 户维随 机向量，则 
X 服从/>元正态分布 

对任一 />维实向量 aj = a l X 是一维正态随机变量. 
证明 必要 性）： 若 X 〜 沁（;/，2)， 对任一实向量 a 二 

( q ，…，七)'，取 B = a ! ，< i =0, 由性质2即得 

p 

$ — a f X = cLjXj 〜 N { a ! fJL ， a ! 

i=i 

# (充分 性）： 因对任给实向量 ^= t ' x 〜一元正态分 
，布，可知芒的各阶矩存在，故 E ( X ,)， Cov ( X ,, Z ; ) (D = l ， …，户)存 
在•记 EOO = 户， D ( X)=Z 

对任意给定的 $= t ' X 〜 N (◊， 〆 及），且 f 的特征函数 
为 

= E ( e iW ) = exp[i 的 V ) — 

取 0=1， 


： (2 Jt ) #/2 |2| 1/2eXP -— Y (X — /一"） ]. 

证明因 2>0， ra nkCS )= 户， 由线性代数的知识知，存 在户阶 
非奇异方阵 A ，使得 I=AA',K 


X . AU + 户， 

其中，…，％)'，且％相互独立同 W ( o ， l ) 分布. 
t / 的联合密度函数为 


/t7(M) = d ^ exp [- 

利用 f / 的联合密度函数及随机向量的变换 X =^ AU + m 的密度函故 
公式： 


fx(.x) = 


(2 丌） 


77i ex P 


J (u —*■ x) 


(2 丌） 


77 i ex Pl 


-\_A~\x- Ux — /0] |Z| 


- 1/2 


(2 tc / /2 |^| 


[T7i ex P 


—— fxy ir l ix — a 


这里积分变换的雅可比 ( Jacobian ) 行列式《/ («-►•!：) 可利用线性变换 
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x = 及 来计算：因 


J { x -^ u ) = 


du 


① 


Sx Y dx p 

dui du x 


故 


J 


m=iwi i/2 

i 


dxi Sx p 

du p du p 

旧 1/2 , 


(证毕） 


J ( x -^- u ) 

定义 2. 2. 4 若维随机向量 ( X , , X 2 ，… ， X ,)' 的联合密度 
函数为 


fix ) 


{2^ p ,2 \2\ 


IT^exp — — fJL)'I,~ l {x — 


其中# 是/>维实向量，2是阶正定矩阵，则称 ，…， 
X ,)'服从(非退化的）/>元正态 分布; 也称 X 为 p 维正态随机向置， 
简记 X 〜乂(//，2). 

以上给出了多元正态分布的4种定义.定义 2. 2. 4是用密度函 
数给出的，它可看成为一元正态密度的直接推广;但在这个定义里要 
求2是正定矩阵，因而它给出的是非退化的正态分布的定义.另三 
种定义中把2矩阵推广到非负定的情形，这三种定义是等价的. 

■xr 


例 2. 2. 1 (二元正态分布）设 X = 


Lx 2 J 


- iV 2 (//，2) ，记 





，2 — 

■^11 

a u 

def 

L 户2」 


[戊21 

汶22」 

L 




P a \ a i 

a \ 」 


> 0 


(即〜〉。，〜〉。，|户|<1). 

(1) 试写出 X 的联合密度函数和边缘密度函数; 

(2) 试说明 P 的统计意义. 

解 （1) 因以及 

1 


■T 


— p 2 ) 


① iAi+ 表示矩阵 a 的行列式的绝对值 . 


因此二维正态随机向量 x 的联合密度函数为 


exp 


2jc<Ti<t 2 s/l — f> 

' 工 1 _ 户 1 \ 卜 2 


2(1 — 〆 ） 


:i — /V 
0\ I 


2/0 


Mz \ 


工 2 -叫 
<h I 


^ I \ <h I 
由性质 2 即得 XeiV (内， < rf )， X 2 〜 JV (内，心 • 

(2) 因 Cox (. X l , X 2 )= a n = pa 1 < j i ,m Xi 与 X 2 的相关系数 
Cov(Xi,X 2 ) pw 


Pd ,X^) 


P . 


Vvar(X,) Vvar(X 2 ) 

故二元正态分布的参数^就是两个分量的相关系数. 显然： 

当 户 =0 时， /(x,,x 2 )=/ 1 (x 1 ) • / 2 (工 2 )，即 X 】和 X 2 相互独 
立. 

当 IH =1 时，1別=0 CS 退化），则存在非零向量 《=(^， f 2 )'， 使 
得公=0,从而/及=0,故而有 

Var[i , (X —户）]= t ' Et = 0. 

这表示 PU ' O •-户）= 0} = 1 ， BP hiX , —内） + f 2 ( X 2 — 托 ）= 0 以 
概率1成立；反之，若兄和 X 2 以概率1存在线性相关关系，则 
1/°1 = 1 . 

当 p >0 时我们称不和 X 2 存在正 相关； 当 P <0 时我们称 X : 
和 x 2 存在负相关. 

为了对多元正态密度函数有更直观地了解，下面的例子给出几 
组参数下二元正态密度函数的几何图形.我们把具有等密度的点的 
轨迹称为等高线(面) . 显然当/> = 2时 
/(x x ,x 2 ) = C 


工 1 U 


2(0 


(£l — 户 1)( 工 2 — fO 


• <A 

— 


\ <T, 1 

# 




/ \ 2 


°\ - 




■ — P 0 \<h 



+ \ a 2 }- 


a 2 (a ^ 0) , 

它是一族中心在(内，内)'的椭圆.一般的元正态密度函数的等高 
面为 





28 第二幸多元正态分布及参数的估计 


§2.3 条件分布和独立性 29 


(x — — fx) = a 1 (a ^ 0). 

例 2. 2. 2 绘制二元正态密度函数的图形及其相应的等高线图 
形. 

作图 我们采用 SAS 系统分别绘制3组不同参数时的二元正 
态密度函数及其相应的等高线图（取 ft =// 2 = 0)， 如图 2.1 至图 2.3 
所示. 




图 2.1 4 = 1,4 = 1,^=0时的二元正态密度函数及其等离线图 




图 2. 3 a \ = \, a \ = \, P ^- 0 . 75时二元正态密度函数及其等高线图 


§ 2. 3条件分布和独立性 


设X〜 N p (fi，2) (»2)，将又，//，2剖分为 
' X a> ~| r 「户⑴- 


s = 


r p — r 



^12 > 

-^21 

^22 -户 


> 0 , 


— 、独立性 

定理 2. 3.1 设维随机向量 X 〜 W〆 户，2)， 


•X ⑴- 

〜 〜( 

> (1) - 

9 

-2 U 

石 2 丫 

•X ⑵- 

•// ⑵- 


•$21 

•^22 」 ' 


X ⑴与 X (2> 相互独立 ^ E n = 0 
(即 X ⑴与 X (2> 互不相关) • 

证明已知 X ⑴与 X (2) 相互独立，则 

cov(x ⑴， x ⑵） = _s 12 = a 

# :设2 12 =0,则 X 的联合密度函数为 

/(”)=^% p - p {-1( H )’ 亡 (以)} 

. (23t) (,- r ,/ 2| 2jr/- 2 exp 卜皆 u ⑵一 〆 2> ) ’石 1 (’) ― 〆 2 ) )} 

• / 2 (X( 2 〉) ， 

所以 X⑴与 x (2) 相互 独立. （证毕) 

推论 1 设 (/ = 1，▼•••，6)，且 n + r 2 + … + r * = /)， 有 
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- x ⑴- 

厂 1 


V 1 )- 


^11 ••• -^1* 


X = 

: 

:〜 N p 


; 

， 

: : 




rk 




Si … 芝 u — 

pxp ^ 


则 

X ⑴，…, X ⑴相互独立<=> A = 0 (—切 Z •关几 
推论2设 X = a \ ，…， X ,)'〜乂( 声， 2)，若2为对角矩阵，则 
；^，…， X ,相互独立. 

二、条件分布 


• exp ( _ 2(l-V)^[ Xl ~^~ P S (X2 ~ ^ 2> ] ) 

=/ 2 (工2) • /( 工 1 1工2)， 

其中 

fixMz) VW eXP (~ 2(1 一 1 … 

- ^-(^ + p^(x 2 -Mz))] }» 

所以 

( m ) 〜一的 + /0驚 o 2 —// 2 ) x(i _ 〆 ）). 


首先来考虑二兀正态的条件分布，即当 p = 2, r = l 时，由条件密 
度的定义知，当 X 2 给定时的条件密度为 

r , | . _ /(工1，工 2) 

/lUl|x2) — / 2 (X 2 ) ’ 


，工 2 )= 


1 


2^<7 2 Vl — 

一 1 P 

\ 

1 


exp 


2(1 - p 2 ) 


工 i — Mi 
戊1 


2^<7 2 Vl —〆 


exp 


— Mi \ 

) 


+ P 2 


^2 ~ ^2 1 


戊2 


2 P 


2(1 - ，） 

£ l _ —_/ fl | ( 工2 — M 2 


(1 -〆) 
1 


工 2 一 


2tc<Ti<t 2 VI — n2 

I 

• exp 


泛 2 

exp 


{- 




工 2 — "2 

o 2 \ 


<h 


^/2 tzo 


exp 


2(1 —〆 ） 

(工 2 —户 2) 


_ 巧 __ J 工 2 _ th 

) P \ a 2 ) 


2^ I VT —— p 2 


将其推广到/ > 元情况，利用 2 d 的分块求逆公式(参见附录§ 4 ): 


Sn \ 2 

~ ^ n - z ^ u^zz 


石 1 + 


其中 Sn .2 = ^ n -^ i 2^2% i - 类似 P = 2 的方法，可证明 

/(x( 1 > ,x( 2 ))=/ 2 (:t( 2 ))./ 1 (x( 1 〉 |x ( 2 〉）， 
且 A ( x (1) |/ 2) )为 r 元正态密度函数. 


_ 4 - ▲ 1 


[工 2 - ^| 2 1 

1 定理 2. 3. 2 设 X = 

- x ⑴- 

. x m . 

\ <Jl 1 


1 < r 2 i 」 

I 


^ N p (/ z 9 2) (2>0)，则当 X (2) 给 


定时， X (1) 的条件分布为 

( X ⑴ ⑵）〜 iV r (/^ 2 D , 

其中 

〜=户 (1) + W 〉— 〆 2 ))， 

^ 11-2 = 工11 — 乏 12乏22 1 乏 21. 

证明作非奇异线性变换，令 

_z ⑴1 rx ⑴- 2 12 2 2 - 1 x ( 2 ) i_ r / r I - 2 12 v irx ⑴] 

x ⑵ 」—L o' 


Z - 


LZ (2) . 

= BX . 

由 § 2. 2 的性质 2 显然有 


Ip - r 


LX (2) J 


Z 〜 N P 


「， 一 「冬 w O 


M 


,( 2 ) 


)-i r ， 
▲ 

♦ 


乏 22. 
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且因 D ( Z ) = 


，故2 (1> 与2 (2 )相互独立. 


'^11.2 O 
■ O 石2 」 

Z 的联合密度为 

犮 < y n ， 2T (2) ) ⑴）.犮 2 ( Z ⑵）= gl ( z a) ) ./ 2 (> (2) ). 

这里因⑵ ，故有 A (z <» )=/2Ce ⑵）（式内 / 2( .) 为 X ⑵的密 
度函数). 

因为 Z = 利用积分变换公式,可以用 g ( z ) 来表示 X 的密度 

函数/( X )，即 


f ( x a \ x m )~ g ( Bx ) • J(z x ) 

= ^( x a) -^ 2 -'^>) . 

=|及|=1.并注意到 
z ⑴〜 AU〆 1 ) — W >， a _ 2)) ， 


dz [ 

Sx 


de _ 

Bx 


式中 

所以 

你 ⑴ 1 ，) = K) = … ⑴ - w)) 


(2 Jt ) r /2 |2 n . 2 | 1/2 eXP l - _ T (X(1> - • S 12- S 22 1 ' r<2> 
-- w )))， 环!办⑴- 
—( 户⑴一 2 12 2- V <2) )>" 


(2 兀， /2 |2„. 2 | 


兩 exp L— j (x - - ^,. 2 ) 


其中 


Mr . 2 = +^ 2 2- 1 ( x (2) - 

■^11-2 = -^11 _ 三12三22 1 三2” 
推论在定理 2. 3. 2 条件下 可得： 

(1) 久⑵与 X ⑴一心石次⑵相互 独立； 

(2) X ⑴与 X ( 2 ) — 2 21 石次⑴相互独立； 


(证毕） 


(3) ( X ⑵ | X ⑴）〜 〜”(灼-”毛卜山其中 
M2 . 1 = ^ + S 21 S -\ x n) - 

•^22-1 = ^22 _ ^l-^ll^lZ• 

三、几个概念 

1. 条件期望 ，回归系数 ，偏相 关系数 


设 


X 


- x ⑴- 

r 1 

yi )- 


^11 2 l 2 1 

- X (2> - 

P _ r 〜 N p \ 


， 

-^21 乏22」/ 


又已知 x <2> 给定时 x (1> 的条件分布为 

( X (1 >| X «>)~^(^. 2 , Z U . 2 ). 

则称 

ft . 2 =，+ w )- ，) 

为条件期望，记为£(叉 (1> |叉 (2) ) ; 并称托. 2 为 x u atx (2> 的回归，称 

, def 

^12^22 === 石 

为回归系数 .记 

^ 11-2 = ( a irr+U-,^rXr (“ ） = 1 ，"'). 

餘 


广 |7« 广 +1 ，，“，夕 


u ij > r - j - l , — ,p 




V 0 iV-r+l •…，多 ’ V u jjT+l,-»,p 

为当 X (2> =(X r+1 ， … ，给定时， X, 与兄 (~ = 1 ， 2 广，，；")的偏相 

关系数. 


2 . 全相关系数 

设2= 


了 

p 

~ Mx ~ 


~^XX 

kT 

.y_ 

〜 N p+1 

1 i 

~ My - 

， 

•芝 yX 

戊”」 ' 


，则称 


R 


^ yX ^ XX^Xy 


1/2 


% I 

为 y 与 x =(^, x 2 , …， xy 的全相关系数. 
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3. 最佳预测 

在定理 2. 3. 2条件下，我们考虑 r =l， 记 X (1> = y, g ( x a ^) = 
E<T|X (2> ), 则对任意函数〆 .） ，可以证明（见习题二的第 2-16 
题)： 

E[(y- ^(x (2> )) 2 ]< E[(y - fCr ⑵ ）) 2 ]. 

即在均方差最小的准则下，条件期望 g(x ⑵)是对 y 的最佳预测函 
数. 


§2.4 随机阵的正态分布 
把来自元总体的容量为”的随机样本排成一矩阵 x: 



'^11 

X \2 

― X IP 


卜] 

x= 

X 2l 

X 22 

… X zp 

def 

X ' ⑵ 


- x m 

x m 

•. • 工 np- 


x' M - 


或 def 
==== 

其中 x <0 (f=l， …，”)是来自元总体的一个样品，则样本数据阵X 
就是一个随机阵.讨论随机阵X的分布时，可考虑把 x 的行向量(即 
样品）一个接一个连接起来构成一个吵维长向量，然后讨论这个长 
向量的分布. 


符号 “Vec” 称 为拉直运算. 如果将矩阵 x 的行向量(样品）拉直为一 
个;!/>维向量，用拉直运算的符号可记为 

Vec (. X 1 ) = ; — (工 u ，工 i2 ，…，工1户’•，工 "1 ，工 "2 ’ …，工”户） . 

loo- 

在多元统计分析中，经常需要考虑对称矩阵的拉直运算•设 *5 
是户阶对称随机阵，在 s 矩阵中只包含 p ( p + l )/ 2 个不同的随机变 
量，故将其拉直为/> 2 维向量是不合适的，应拉成/>(/ > + D /2 维向 
量.设 5=(5,.,) …为/>阶对称矩阵，令 

Svec(5) = (*Sii，...，*S #1 ， 1 S Z 2，“’，*Sp2，...， i 5 w )' 

为 p(p + lW 2 维向量.符号 “Svec” 称为对 称矩阵的拉直运算. 

2. 克罗内克积 

设 A=U, 7 ) 和 B 分别为 《X/> 和 mXg 的矩阵，和 S 的克罗内 
克积 A ® B 定义为 

a n B a \P B 

A 0 B = (a t jB) = ： : » 

_ a nl S … a np B 

它是 mnXpq 矩阵.在多元统计分析中克罗内克积又称 矩阵的直积， 
是一个有用的工具.在下面的讨论中将用到矩阵的直积的一些性质 
(见参考文献 [1]). 


—、拉直运算和克罗内克 ( Kronecker ) 积 


1. 拉直运算 


所谓拉直运算，就是将矩阵拉成一个长向量，通过它来建立矩阵 
和向量之间的联系•设随机矩阵X是一个 nX/ •矩阵 ，用X的列向 
量 XuA， …，;组成一 个矽 维向量，记为 


Vec(X) = 


:=(工 11，工21，...，工》1，"•，工 1,，〜，."〜)’， 

- Xp - 


二、随机阵的正态分布 

设叉⑴=(〜，…， xW (*' = ]■，...，《)为来自/>元正态总体 
的随机样本(独立同分布），记随机阵 X=U,)„ x ，，利用拉 
直运算及矩阵的直积的定义和性质，可知 
VecCXO 〜 

事实上，吵维长向量 Vec(X') 的联合密度函数为 

/" (工⑴ ，…，工 (”)） 


①本书中 ■ 表示向量元素均为 1 的 / ■ 维常 向量 . 
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M (2iy^]Ip exp 


2 


(x 0> — mYS~\x 0 




石 ^7iJ^pi ex P 


2 ( x «) — ")’2 _1 ( 工 (1.> _ ") 


(2ny p/2 \I\ n/2 


1 

"^(1) - M 

/ 

~s — o 

-1 

"^(1> - M 


—飞 

• 


• • 

參 • 


l 





-O - 2. 


-^(n) - ^ 



由矩阵的直积的定义，吵维随机向量 Vec(X') 的均值向量和协方 
差阵分别为 



= 1” ® 户， 

三… 

cr 



_o … 

2 - 


=/” ® Z 


当随机阵 X 按行拉直后,如果有 
Vec(X ’） 

则称 X 服从 矩阵正态分布 ，记作 

X 〜 N … (M ， I„®S )， 

其中 


Vec(M’） = 1„ (X) ^ =( 灼， … ， /^ ， … ，灼， … ， "〆. 

即 


X 〜 N„ xt (M ， I„®2)@V eC (X ')〜 A^(Vec(AT) ， J„® 2 )， 
其中 






_ r 

M = 

.Mi 

… M P _ 

= 1 «〆 = 

-i- 




随机阵正态分布有如下有用的 性质: 


设 X 〜 N„ x 八 M ， I ” ⑽ ，A 为々 X ”常数矩阵，£ 为 qXp 常数矩 
阵，£>为 kXq 常数矩阵，令 Z = v 4 X 5'+ D ， 则 

Z 〜 N tXq (AMB' + D,{AA')® (BSB')). 


§2.5 多元正态分布的参数估计 

考虑声元正态总体 X 〜 A ^(//，2) ，设 X ( 0 = 0,1，… , x ip )' ii = l , 
…， 《)为 P 元正态总体 X 的简单随机样本，此时观测数据阵 

_ 工 11… 工 i/T 

x = : : 

-工 》1 … ^ np - 

是一个随机阵. 

本节讨论参数 P 和2的最大似然估计及其性质. 

一、 多元正态总体样本的数字特征 

对于多元统计分析，我们引入以下多元正态总体样本的相关量. 

(1) 样本均值向量 X : 

1 n 

x = ~Yj X ^ = ( 王=丄 ri ”， 

71 7^( P n 

其中 ~ X ) x « “ = 1，2,…，户). 

«=1 

(2) 样本离差阵(又称交叉乘积阵) A : 

R 

A= 2 (X w - X)(X ia) - xy = X'X - nX X' 

a=l 

= X ' 1 - - x — 

其中 

n 

a i , = 2 r «< — 王, ‘）（ 工 — A ) (z ,j = 1，2广.，户）. 

«=1 

(3) 样本协方差阵 

5 = ^\ A = (或 S * = 士 4) ， 


其中 
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5 tI = 2 ix ai — Xi) z 0 = 1，2,…，户） 

«=1 

称为变量X的样本 方差; 样本方差的平方根称为变量兄的样 
本标 准差. 

(4) 样本相关阵 


其中 


r a = 


S n 

~Vsu ■%/ s jj 



iiyj = 1，2,…， />)• 


二、的最大似然估计 

设兄,山=1，…， 《) 为/»元正态总体的随机样本，以下 
用最大似然法来求参数化2的最大似然估计. 


1. 似然函数 LO/,2) 

把随机数据阵X按行拉直后形 成的吵 维长向量 Vec(X') 的联 
合密度函数看成未知 参数〜 2的函数，并称为样本 X«)G_ = 1， …， n) 

的似然函数，记为 

LO ,2) =立 (2w) J j^p ex P [— + (x «) — "yPOw — 户)] 

=exp [- i|f (X(,)_ 一)] 

= (2Jt) .i| 2r /2 eX p [—士 -//))] 
^ ( 2 K)»^iir exp [— jt tT(2 ~ 1(Xw ~ w (x « 一 #). 

= (27t) .i|2p exp [ tr ( 一 l^'E^co- 户 )u(o - 沁 ’) _ 

— (2， A \ W 2 etr (一 — A) ’) ， 


S 0(,.) _ ^)U (1) - fi )' 

i*=l 

n 

= 2 ( 工 ⑴ —x + x — fx) (x 0) — x x — /i)’ 

1=1 

n 

= 2( 工 (,> _ X)(x (0 — xy + n(x — fi)(x ~ fiy 

i-i 

=A + n(X — /x)(X — 户 ) ’• 

由于 ln _ r 是 _ r 的单调函数， L (//，2) 与 lnL (//，_2) 有相同的最大 
值点. 以下只须讨论 lnL (^，2) 的最大值问题. 

2. 迹的有关性质 

在附录中介绍了迹的一 土性质，下面的一条引理给出与迹有关 
的进一步的性质. 

引理 2. S .1 设 S 为/>阶正定矩阵，则 
XxB — In | jB | ^ />, 

且等号成立的充分必要条件是 B=I P . 

证明 因为 B >0, 所以 B 的全部特征值々，…， A ,>0, 且 | B | 
=1… A # . 利用不等式 ln ( l +> rXx (当 x + l >0) ，可得 

In | £ | = 'y j lnA ,- = 〉 : ln(l + 又 ,■ — 1) 

**=1 1=1 

P 

< (义, .一1) = tr ( B ) — p. 

所以 

tr_S — In |B I ^ p, 

因不等式 ln ( l + x )< x 中的等号仅当 z =0 时成立，故引理给出 
的不等式仅当 A , — 1 = 0 (/ = 1，…，户)时成立，即 B—Ip. 

反之，当5 =八时， ln |/,|=0， t r fi = /)， 故引理给出的不等式中 
的等号成立. （证毕） 

3. 讨论 lnL (//，2) 的最大值点 

首先利用迹的有关性质来讨论当给定2：>0时， lnLO /,2) 的最 
大值点.经直接运算，有 


其中 
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lnL(//,2) =— ^ln2ic — fln|2| 

— +tr[2 _1 自 (x(,_) - /O(:(•■> — A)'] 

—C 一 音 tr[2_M + n2 _1 (X — fx) (X — //)’] 

=C - +trd) - y[(X - "Vra -")] 

<C - +trCS - M). 

以上不等式仅当 P=x 时等号成立 , 即对于固定的 2>0 ,有 
lnL(X,2) = max lnL{ft,2). 

进一步地可利用迹的有关性质及引理 2. 5. 1 来证明，当取念 = 

丄 A 时 lnLdJ ； ) = max lnL(X,J) : 

71 x,s>o 

lnL(X,2) =- ^ln(27t) - j\n\I\ - +t r d) 

=—^ln(2Jt) — y ln|2| + tr(_2 _1 ^j_ 

= C 1 -v[tr(l：- 1 -)-ln S- 1 - +ln - 
1 2 L I n I n 7i 」 

=C «-[tr(2 _1/2 -2' 1/2 )-ln r m -ir m +ln - 
1 2 L \ n I n w 」 

< C —处 —！ l n 4 
^ Cl 2 2 n • 

若取一 1/2 $r 1/2 是正定矩阵，由引理 2. 5. 1 ，以上不等式的等号 
仅当 B=2 _1/2 -2 _1/2 = 八，即 2=4 时成立.所以 
lnL( 义，丄 ^4)= max lnL(X,2) 

\ n ' X,X>0 

=—^(1 + ln(27T)) — 号 In ▲ ， 

2 2 n 

因而似然函数的最大值为 


np/2 


L ( X 々) = life ) ⑷- ' /2 . 

定理 2 . S . 1 设义《)(£ = 1，…, n ) 是多元正态总体乂(>，幻的随 
机样本， w 〉/>， 则；的最大似然估计为々 — X , t =-^- A . 

如果 | J ：|= > =0怎么办？此时可以证明 SupL (/2 ，!：）= 

«>，最大似然估计不存在.但 |A | =0的情况几乎不存在，因为可以证 
明，当”>/>时尸 { Z >0} = 1( 见定理 2. 5. 2). 


三、最大似估计置的性质 


前面已给出了 餐 U 的最大似然估计 A = X,S =^ A . 参数 

的最大似然估计有很多优良性标准，如无偏性、有效性、相合性等 
和2的最大似然估计是否具有这些好的性质呢？这是我们现在要讨 
论的问题. 

设 X («)= {x a , — ,x tp )' O = 1，… ， M ) 独立同 A / p (; U ，_ S ) 分布，且 
2〉0,记 

x =七 ， a = ^(X (<) — x )( x (t) — xy . 

n /-I t=i 

定理 2. S . 2 设 X 和 A 分别为 /> 元正态总体 AT / aZ ) 的样本 
均值向量和样本离差阵，则 
(1) , 
d n J ~\ 

(2) A ^ Z t Z \ ，其中 Z ” 独立同 ％(0,2)分布； 

t=\ 

(3) X 和 A 相互 独立； 

(4) F { i 4>0} = l n > p , 

证明 设 r 是 n 阶正交矩阵，具有以下形式 


厂 = 


r n … r ln 

• m 

• • 

r («- l)l •" r («- l )« 

-1/ ^ J~n … 1/ ^/~n ~ 


=( r v)„x»- 
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令 


Z 


2;" 


r 


^ a ； 


rx, 


z, = (x ⑴，…， d 


r n 




it = l ， ... ， n) 


为/ > 维随机向量.因 Z , 是户维正态随机向量 X ⑴ ，…，的线性组 
合，故 Z , 也是/>维正态随机向量，且 

[ o , 当 f 古 W 时， 

\^/~n fjt , 当 f = w 时； 

Cov ( Z „, Z ^)= E [( Z „- E ( Z 0 ))( Z / ，- E ( A ))'] 

IO , 当 时， 


E ( Z ,) = 




U, 当<* = /9 时. 


(1) 因为 Z „ = ~^= t ； x («) = >/7 rx 〜故有 

W n a=l 




^/~n 


Z n 


1 

4 ，H 


(2) 因为 

H 

^zX= (U) 






Z'Z 


且 


= XT' • rx = X'X = 2K” 

«=l 

- Z,Z' n - ^X m X' m - nXX' 

a=l «=1 «=1 

= 2 (x ⑷一 x)(x (a) — xy = a. 


(3) 因又是之„的函数，而 

«=i 

&，…，乙- 1 与 Z „ 相互独立，故 A 与 X 也相互独立 • 

(4) 记 £=(2! ，…， Z ,—!) ，则 ^4=55'，以下来 证明： P { A >0} = 
1的充要条件是 n > p . 

因为 A — BB 1 ，B 是 (” 一1) 矩阵. 显然 rank ( A ) = rank ( jB ). 

当 A 为正定矩阵时 A 的秩是/»，故£的秩 也是久 从而 p < n . 

反之，设《〉/>，我们来证明 PM >0} = 1， 为此只须证的前 
/>列线性相关}=0.容易 看出： 

尸 {5 的前户列线性相关 } =■?%，…， Z , 线性相关} 

< i ^ Piz , 可表成 Z 丨，… , Z ,_,， Z , +1 ， ...， Z ，的线性组合 } 

« = 1 

= P - P { Z , 可表成 z 2 ，…，的线性组合 } 

=/> • E [ P { Z 1 可表成〜， …， h 的线性组合 

\ z 2 - z 2 , — ,Zp = z p }~\ 

=/> - EIP { Z , 落入由 zw t 张成的子空间 

| Z 2 = z z ,'^, Z p = z p }^\ 

=P * E [/ ^ 存在户维常向量 a 关0,使 a % = 0 

| Z 2 = = Z p }~] 

— P • E (0) = 0. (证毕） 

在证明过程中用到以下 事实： 由于2 1 〜7^(0,2)，而 2>0(正 
定），对常向量 a ^ O ， a % 〜 AKO〆 ^)， 且 即尸 { a % = 0} = 
0. 或者说乙取值落入任何维数小于的子空间的概率是 0. 

以下是//和的最大似然估计所具有的一些性质. 


1. 无偏性 

可以证明 


E(X) = 


« = 1 


ip : 

L i = l 」 


ip . 


:=户， 
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故 X 是//的无偏估计. 

又 

.n 一 1 . n 一 1 

E ⑷ =E( YjZ a Z' a ) = 2( E ( Z « Z 1)) 

a= 1 a= 1 

=( 2 D < Z «>) = (« _ 1)2. 

«=1 

因而 2 的最大似然估计戈 = X A 不是无偏估计.为了得到无偏估计 

n 

量，常作如下 修正： 

令儿则 s 是三的无偏估计.常称，…， 5,)' 为样 
本 均值； 5 = -^^ 为样本协方差阵. 

2. 有效性 

可以证明 X ， S 是//，2的“最小方差”无偏估计量，即又，5是"， 
2的有效估计量(见参考文献 [2]). 

3. 相合性(一致性） 

可以证明当 woo 时 X ,戈是/的强相合估计 • 

实际上，因 e ( x )= a 由强大数定律知 
P{lim X =戶} = 1. 

n 

▲ 1 ”一 1 

另一方面，因= — ^ Z a Zl ,而 Z : ，…， Zn - i 相互独立同分布， 

a— 1 

共同分布是％(0,2)，而 E ( Z a Z !) = JSO = l， …， n —1). 再利用强大 
数定律知 

P {limE = - S } = 1. 

n 

4. 其他 

还可以证明 x ， i ： 是//，2的充分统计量；又是//的极小极大估 
计量(最大风险达最小）;且估计量具有渐近正态性 • 

四、参数函数的最大似然估计 

为了从参数；的最大似然估计来导出参数函数的最 


大似然估计，我们首先介绍有关的概念与性质 • 

设参数向量0的变化范围是@6 5^. ZX 0) 是似然函数•设 w = 
〆 扪是 <9到@ •上的 博雷尔(也 1 ^)可测映射，这里&是的子集. 
对任何 wW ，令 

M{xv) = Sup L(d) t 

{Ot g(.6)=w) 

定义 2. 5.1 称 M ( W ) 为函数 贫 (的诱导出的似然 函数 . 

定义 2. 5. 2若士满足 M(w) = Sup M ( w )， 则称汤是发 (0) 的 

W 

最大似然估计 • 

定理 2.S.3 若 $ 是0的最大似然估计，则必(幻是尽(刃的 
最 大似然估计. 

证明 任给，因尽(沒)=士，故有 
Mi.iv) = Sup L{6) ^ Sup L{6) = L($) ^ M{w) , 

{$•• 9 ^：S 

这就证明了 是 gW ) 的最大似然 估计. （证毕) 

既然多元正态分布的参数//和2有最大似然估计量 

fi =兄，戈 =丄_4, 从定理 2. 5. 3知，函数 g (户， 2) 的最大似然估计为 
n 

发»). 

例 2. S . 1 设户维 正态随机向量 X =( X ! ，…， X ,)'， X ,， X ) 的相 
关系数为 

Cov(X,,X,) a,j 

p “ = — ' d — = ― * -, 

Vvar ( X ,) • VarCX ^) \! o ,, . o j} 

其中 A 是协方差阵 1： 的第 i 行第 j 列的元素.试求&的最大似然估 
计量 r , v . 

解给定样 = …， 《) ，则 Z 的最大似然估计为 

丄 t (x (<) - x) (x w -xy = ^a, 

n 7 Tx n 

2 的 元素％ 的最大似然估计 

d u = ^ S (- r » - 5,.)( X " — 勾）= 七 a … 

由定理 2. 5. 3知，相关系数&的最大似然估计量 n , 为 
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例 2. S. 2 设 

X = 


r o = - 

a H 

V a.. • a 


v ** jj 

- x ⑴- 

1 「 

•X (2) - 



Vau • a ： 


,( 2 ) 


各1 芝1: 
L "^2 i 2 22 」 


试求X⑴对X ⑵的 回归系数阵及 X (2) 给定时X⑴的条件协方差阵的 
最大似然估计量. 

解X⑵给定时X ⑴ 的条件分布为 


(X⑴IX ⑵卜物 w ，心. 2 )， 

其中朽• 2 = / 1 ) + 石 2 在 1 0 (2> -/ 2> )，且5=2 12 2 2 _ 2 1 为叉 (1 )对义( 2 )的 
回归系数阵；为条件协方差阵. 

由样本 Uf=l， …，《)，计算离差阵 A， 且 



^12 1 

-^■21 

^22 - 


其中为 r 阶方阵，乂 22 为 p - r 阶方阵.由定理 2. 5. 3知，回归系 
数阵 S 的最大似然估计为 


B O 


— 1 
22 




A 4 一 1 
^ 12^22 


条件协方差阵2„. 2 的最大似然估计为 




7( A , 




习 



2-1 设三维随机向量 X 〜 N ^ fi ，2 H 已知 




0 , A = 
- 0 - 


• 0. 5 

- _ 0. 5 




试求 Y = AX+d 的分布. 


2-2 设 X=(X”X 2 V 〜从(户,2)，其中 


M = 


Mi 

- 户 2- 


S = a 2 




(1) 试证明兄+叉 2 和 x 1 - x 2 相互 独立； 

(2) 试求不+叉 2 和 X 「 X 2 的分布 • 

2-3 设 X ⑴和 X (2) 均为/>维随机向量，已知 


X 


， X (1 〉， 

.x (2) 


N 2P 


■户 


Cl>- 

( 2 ) 


「冬 


•乏 2 

2』 


其中 /»G = l，2) 为户维向量，足心=1，2)为/»阶矩阵， 

(1) 试证明X⑴ +X ⑵和X⑴ 一X ⑵相互独立； 

(2) 试求 X( n +X ⑵和X⑴ 一 X⑵的分布. 

2-4 设 X〜沁(//，2)，其中 


"1 P P ' 

尸二^，/^，/^)’， -2 = pip (0 < /0 < 1). 

-P P 1- 


(1) 试求条件分布和 

(2) 给定 X 3 =x 3 时，试写出X!和叉 2 的条件协方差. 

2-5 设 A ■〜 iV 2 (OJ 2 )， 其中 X=(U 2 V. 试求当 X!+X 2 给 
定时X,的条件分布. 

2-6 设■〜沁(户，2)，其中 

X = ( X ^ X ^ X ,)', //= (2, 一 3，1)，， 


*1 1 1" 
2= 1 3 2 

-1 2 2 - 


(1) 试求 3X!-2X 2 +X 3 的分布; 

(2) 求二维向量 a = ( ai ，a 2 )'， 使义 3 与不一V 
2-7 设 X〜 iV 3 (//，2)， 其中 


X , 

lx 2 , 


相互独立. 


X = (Xi.Xj.XsV, //= ( - 3,1,4) ; , 


' 1 -2 0 ' 

1= - 2 5 0 

- 0 0 2 - 
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试问下列5对随机变量中哪几对是相互独立的，为什么？ 
⑴兄与伙^ (2)X 2 与 X 3; 

(3) (X!，义 2 )与又 3 ; (4) "^(Xi+X 2 )-^ X 3 ; 

(5) XAXr+H 

2-8 设 X〜N p (fx,I：、，A 为 wX/> 常数矩阵， B 为是 X/» 常数矩 
阵 •令 Y=AX+d,Z=-BX+c . 证明 

卩与 Z 独立㈡ ASB' = O mXk . 

2-9 设 

1/ vT 1/ VT i/^/T i/^/T " 

i/Vy . - 1/vT o o 

= 

l/^i" l/v^i" - 2/vT o 

-1/ Vl 2 1/ Vl 2 1/ Vl 2 - 3/ Vl 2_ 

(1) 试证明 A 是一个正交矩阵(即 AA'=I 4 )； 

(2) 已知 X 〜设7=0^，7 2 ,7 3 ,7 4 )，=尤？，试证 
明： 

① X) 2 ,其中 x=|(x 1 +x 2 +x 3 + 

X 4 )i 

② ， [相互独立； 

③ 厂〜鹰〆）， Y,-N(0,ff 2 ) 0 = 2,3, 4). 


2- 10 设 X〜 N 2 (0,2) ，Z = 2 1，即X具有退化的正态分 

布.试求一个矩阵使尤=^=^4?7,且 U 〜 N z (S)，Iz). 

2-11 已知义=(不，；!： 2 /的密度函数为 


fix x ,x 2 ) = ^exp I — y(2^i + + 2x,x z 


— 22 x x — 14 x 2 + 65 )I , 

试求 X 的均值向量和协方差阵. 

2-12 设兄〜〜⑺,：!），令 


I— 兄，当 一 1< 兄 <1 ， 

叫 X ” 其他. 

(1) 证明 X 2 〜W(0，1); 

(2) 证明 (X!，；^) 不是二元正态 分布. 

2-13 设 X〜；^(//，2)，4为对称阵，试证明： 

(1) E ( XX , ) = 2+ W , ； 

(2) E(X'AX)=tT(SA)+/x'A ^； 

'll 

, (3) 当户 =a i =^=al # ，A = 八一■^1 # 1二， ■Sea 2 /， 时，试利用 

Li 」 ' 

(1 ) 和 (2) 的结果证明 E<,X'AX)=a 2 {p-\). 

: 若记叉=(不 ，…， W， 此时 


X^X= f (X, — X ) 2 ， 

1 = 1 

则 

E 「 E (X ' _ ^) 2 ] = a 2 (/> - 1). 

2-14 试用对户，2求微商的方法求总体 A^(//，2：) 中参数户和 
2 的最 大似然估计. 

2-15 设 X a) ,-，X(„) 为来自总体 JV〆 户，幻的随机样本，若户= 
Mo 已知，试求总体中参数2的最大似然估计. 


2-16 设 2=(7,；^ ，…， D '是 m+1 维随机向量， E(Z) = 0, 
D(Z)=2. 试证在一切的讲元函数 gCr, ，…， x”) 中，当 g{x x ,' m ',x m ) 
=E(y|x 1 =x 1 ,••• , E(y,••• >sc m )) 2 为极小. 

2-17 设 X 〜 N 办 H>Q，X 的密度函数记为 
任给 a >0, 试证明概率密度等高面 


= a 


是—个楠球面.特别当/>==2且 2=<r 2 


-P 


( P >0) 时，概率密度等 


高面就是平面上的一个椭圆.试求该椭圆的方程、长轴和短轴. 


2-18 设叉⑴， …， 尤„)是来自 A^<>，2) 的随机样本， c,^0 (/' = 
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1，…， 《) ，^1^ = 1，令 试 证明： 

*-1 i=l 

(1) Z 是//的无偏估计量； 

(2) Z 〜 ， 其中 c =( c 1 ,— fC n Y ； 

(3) 当 ■时， Z 的协方差阵在非负定的意义下达到极小. 

n 

2-19 为了了解某种橡胶的性能，今抽取10个样品，每个测量 
三项 指标： 硬度、变形和弹性，其数据如 下表： 


序号 

硬度 ow 

变形 (x 2 ) 

弹性 (x 3 ) 

1 

65 

45 

27. 6 

2 

70 

45 

30.7 

3 

70 

48 

31.8 

4 

69 

46 

32. 6 

5 

66 

50 

31. 0 

6 

67 

46 

31.3 

7 

68 

47 

37.0 

8 

72 

43 

33.6 

9 

66 

47 

33.1 

10 

68 

48 

34.2 


试计算样本均值、样本离差阵、样本协方差阵和样本相关阵. 


第三章多元正态总体参数的假设检验 

一元正态总体中，参数的检验涉及到一个总体、两个总体， 
乃至多个总体的检验 问题； 推广到/>元正态总体类似 
地，对参数向量 P 和参数矩阵2涉及到的检验也有一个总体、两个 
总体，乃至多个总体的检验问题. 

在一元统计中，用于检验 以 的抽样分布有; f 2 分布^分布、 F 
分布等，它们都是由来自总体 iV ( A ，/) 的随机样本导出的检验统计 
量.推广到多元正态总体后，也有相应于以上三个常用分布的统计 
量：威沙特 ( Wishan ) 统计量，霍特林 ( Hotelling ) 了 2 统计量，威尔 
克斯 ( Wilks ) 4统计量，讨论这些统计量的分布是多元统计分析所 
涉及的假设检验问题的基础. 

§ 3.1 几个重要统计量的分布 


一、正态变置二次型的分布 

1. 分量独立的《维随机向置 X 的二次型 

设 X ,■〜 iV ! (片， ( T 2 ) ( t _ = l ，..，《)，且相互独立，记 

■xr 

x = :, 

-X„- 

则■〜 JV , (户，其中户=(内，…，户 J ’. 

X 的二次型具有以下一些 结论： 

结论1 当外 = 0 («' = 1，…， w )，< r 2 = l 时，则 

? = X'X = j^X^X 2 M ； 

« = 1 
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当 ( V = l ，2, …，72)， O 2 尹 1 时，则有 

j- 2 X'X - X 2 (n) (或记为 〜 ff 2 ； f 2 (”)). 

结论2当 /i^O ( t = l ，2, …， ”）， X ' X 的分布常称为非中心尤 2 

分布. 

定义 3.1.1 设《维随机向量 X 〜; 人）（户关 0), 则称随机 

变量 ^=X'X 为服从《个自由度、非中心参数^=//>= f )//, 2 的; f 2 

分布，记为 X'X 〜 ^(”，幻或 X'X 〜 

当 _ X ■〜，户尹0,且 cr 2 ^：l 时，令 

= i Xi - 

显然 

\〜0 = 1 ，…，”)， 

则 

Y'Y = ^X'X^tSS), 

其中 §= 'git 1 'M- 

结论3设 X^N n (0„,<7 2 I n ),A 为对称矩阵，且 ran k ( A )= r ，则 
二次型 X'AX/a^ - x 2 (r) ^ A 2 = A U 为对称幕等矩阵). 
证明=^ : 因 X 为对称矩阵，所以存在正交阵 r 使 
fAr = diag ( A ” …又” 0...0). 

令 

y = 〜 AU0„ ， a 2 J „)，X = rY. 

则 

e = X'AX/a 2 = YT'ArY/a 2 = ^A,Y^/a 2 , 

i=i 

且 [ ，…， A 相互独立同 iV (0，<7 2 ) 分布•故而 y , 2 /« r 2 〜; f 2 ( l ) a = i, 

…， r )， 且相互独立. fAWAT 2 的特征函数为 
1 = 1 

(1 — 2 iV )_" 2 . (1 — 2 iA 2 f ) _1/2 .(1 — 2 i 又 〆 ) _1/2 . 


又知 ^X'AX/ff 2 -X 2 (r),^L^ 的特征函数为 （1 一汾厂 /2 .利用 
(1 - 2itY n = [(1 - 240(1 — 2iA 2 0-(l - 2iA,i)] 1/2 


可得出 Ai = A 2 = … = A r = l ， 于是 

dia g (i ， .“ ， i ， (V.. ， o) = r'Ar = r'Ar . r'Ar = r'A 2 r, 

故 a =* a 2 , 即乂为对称幂等矩阵- 

因 A 为对称幂等矩阵，而对称幂等矩阵的特征值非0即 


1，且只有 r 个非0特征值，即存在正交矩阵 r ， 使 


r'Ar = 


'Ir O ' 

.o o. 


令 y = 


Ti ' 


: r'x (即 x =/ t )， 则 

y ~ N n (o n ,a z r'i n n = n„(o„,<t 2 /j, 
\ I r O ' 


^AX = ^TrAFY = ^ 


10 o. 


Y 


< T 2 




因为 y * 〜 N (0，< r 2 ) (£ = 1，2，•••，/*) ，且相互独立，所以 
^ = ^X'AX = ^E y « 2 〜 Z 2 ( r ). 
结论 4 设 X 〜凡 (//，< x 2 八）， 则 
^ X'AX - X 2 ( r , S ), 


(证毕） 


其中 

S — Afi <==> A = A 2 (对称幕等矩阵）， 

且 rank ( A)=r ( r ^ n ). 

结论 S 二次型与线性函数的独 立性： 设 X 〜八 ）， A 
为》阶对称矩阵， S 为 mX » 矩阵，令 f = = ( Z 为 m 维 

随机向量），若 BA = 0, 则和相互独立. 

证明 设 rankU )= r >0 ( 当 r = 0时4 = 0,结论显然成立）， 
存在正交矩阵厂使 


r'Ar = 


-D r O' 

-O o. 


" A , 

D r = 

0 


0 

A r - 
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其中1是 A 的非零特征值(£ = 1， 




»r). 


因为 


[D r Ol [D Ol 

ba= Br r = (c, ； c 2 ) r r 
L.o O 」 Lo O 」 

=(C,D r : o)r = o, 

其中 fi 为 mX ” 矩阵， O 为 mX ” 零矩阵, C , SmXr 矩阵，(: 2 为 
mX (” 一 r ) 矩阵.故有 GDpO , 又 Z 3 r 为对角矩阵，且 A , 关0,从而得 
C !=0. 

即 x =/ r . 则 


_5 V 

y = : 〜 Njir ' f ^ i 丄 
-Y n . 

即… ，八 独立.因 


阵). 

令 y = C _1 X ， B |] X = CY ■贝 |J 

y - NpOnm. 

因 2 = cc , 所以 y 〜 乙），且有 

x ' S~ l x = y'ci,~ 1 cy = ry 〜 x\p,d), 

其中 8= ( C - V ) , ( C - V ) = (证毕) 

结论 2 设 X 〜 ％(户，2)，2>0,4为对称矩阵， rankG 4 )=r .则 
(X - ^'MX - fi) 〜 X z (r) <=> SASAS = SAS. 

证明因 2〉0, 则有 rank (2) =/»，且存在正交矩阵厂和 A,(t = 
1 ， 2 ,…， />) ，使得 

I ： = S m • S m , 

其中 2 1/2 = rdiag (^/ I 7，-"，^；) r ' 为2的平方根矩阵. 

记 


X'AX = YTArY = Y' 


D r O 
LO OJ 


y= SA,y, 2 , 


BX = BTY = (C, : C 2 ) 

-yr 

= C 2 

x +1 - 


-l- 


- y n - 


由于 L ，…，与 y r +1 ,—, y „ 相互独立，故 x' ax 与 bx 相互独立. 

(证毕) 

结论5反之也成立，即 ：若 和 X'AX 相互独立，则凡 4=0. 
结论 6 两个二次型相互独立的 条件： 设 X 〜 iV „ (//，//„)， 
石为《阶对称矩阵，则 

AB ^ XMX 与 X'BX 相互独立. 


2. —般/>维正态随机向置的二次型 

P 维随机向量的二次型具有下述 结论： 

结论 1 设X〜 JV〆 户，2)，2>0,则一 1 X 〜； c 2 (/>d)， 其中 

8 —fJ I,~ l fx . 

证明 因2>0,由正定矩阵的分解可得 2=cc (c 为非退化方 


r 1/2 = rdia g (^ r •，为 卜， 

显然有 S m S m = I p . 

令 

Y = 2_ m (X - (I 、〜 N P (0 P ,I P ), 

这里 

D (7)= D (2 ~ 1/2 (X - ^)) = S~ m . I . (S~ 1/2 y 
= E~ m • E in E m • S~ m = I p , 

def 

(X - m)'MX —户） = Y'l m Al U2 Y==Y'CY. 

. 由本节的小节 _、1 “分量独立的 《 维随机向量 X 的二次型”中 
-论3可知 

rcy 〜心） ㈡ c 2 = c ， 

即 r /2 AI i/2 • S m AS m = E m AI m . 

将上式两边左右乘 _ S 1/2 , 即得 SAIAI=-IAI . (证毕) 

结论3设 X〜N p { M mQ，A 和 B 为/>阶对称矩阵，则 
(X — ^'A<iX — //) 与 （X — ^B(X - /u ) 独立 
EAXBS = Op Xp . 
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3. 非中心《分布和非中心 F 分布 

定义 3.1.2 设 X 〜 ATdi ) 与 y 相互独立 ，令 二、 威沙特 ( Wishart ) 分布 


t 

-JY ' 

则称了的分布为具有《个自由度、非中心参数为5的非中心 i 分布， 
记为 T 〜 tin ， 8、, 

定义 3. 1.3 设 A ： 〜；|： 2 (/«，幻与7〜;^(”）独立，令 

r X/m 
F - Y/n ' 

则称 F 的分布为具有自由度为；„，„和非中心参数为5的 F 分布，记 
为 F 〜 F{m ， n ， S). 


4. 非中心 Z 2 分布、非中心 f 分布和非中心 F 分布的应用 

一元统计中，关于在一个正态总体的均值检验中，检验 
Hoi 时，检验统计量为 


X — Pq 
vV/ti 


下 


t(n — 1) ， 


否定域为{ | r |> A }， 其中 A 满足： P {| T |> A }=« (显著性水平). 
当否定//。时，可能 犯第一类错误，且 
第一类错误的概率 = P {“ 以真当假 ”} =尸{|了| > X \ M == l u 0 ) 
=显著性水平《; 

当//。相容时，可能 犯第二类错误 ，且 
第二类错误的概率= P {“ 以假当真 ”} = P {\ T \ 

= Mo j X -//! + (//! - ft 0 ) I 

P i Tfffn 


=炙 


此时检验统计量 T 〜 《(”一 1，幻（非中心参数 6 = —凡 )/4, 

利用非中心，分布可以计算第二类 错误# 的值，从而得到检验法的 
功效函数为 1 一戸. 

类似地，非中心; f 2 分布和非中心 F 分布在一元统计的相应检验 
中，将应用非中心分布来计算第二类错误. 


威沙特分布是一元统计中 Z 2 分布的推广.多元正态总体 
中，常用样本均值向量又作为 P 的估计，样本协方差阵 

5 = ^!^ 

作为2的估计.第二章的定理 2. 5. 2 已给出 

又〜香) • 


一元统计中，用样本方差 

n 丄 《=i 

作为 /的估计，而且知道 

^2(X(0 -X) 2 ~z 2 (« - 1). 

1 = 1 

_广到/>元正态总体，样本协方差阵 *S = ;^ A 及 随机阵 4( 离差 
阵) 的分布是什么？ 

设 X («)( a = 1，…，”)为来自总体 A ^(0,2) 的随机样本，记 X = 
(X ⑴，… ,X M y^nXp 样本数据阵.考虑随机阵 

X 1 ⑴ 

W =(义⑴，…， D I ; l = ^x 


X ' ⑷ 」 


的分布.当/» = !时(总体 _ X ■〜 W 1 (0，< r 2 ))， 


2^(0 = ( X ⑴，…， X ⑷) 


X 


(1) 


Lx (1 


X'X 〜 < 7 2 X z ( n ). 


在一元正态总体情况下， 

每= X / X ^> ^ A ”)， 

1 = 1 

推广到 />元正态总体时，随机阵 W 的分布是什么? 
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1. 威沙特分布的定义 

定义 3. 1.4 设 X ( a > 〜 A (0，： S ) («=1，…， M ) 相互独立，记 X = 
( X ⑴，…， U 为 nX 力矩阵，则称随机阵 

知乂 = H 
«=1 

的分布为威沙特分布，记为 W - W P in , S ). 

显然， P = l 时， 〜 W (0，< r 2 )， 此时 


n 

XX ) 〜々 2 (”）， 

«=1 

即 %(«，/)就是 々 2 ( n ). 当 /» = l ,< r 2 = l 时， WVn ， l ) 就是 fM . 
一般地，设 Xuo 〜 NpifJt ’ Z ') (<*=1，… ， n ) 相互独立，记 

."1 .. •卢 户 _ 

M = : ; = 1„ 〆 ， 

- Mi ... tb- 

则称 W = X ' X 服从非中心参数为 △ 的非中心威沙特分布，记为 
W 〜认 ^(« ， 5,4 )，其中 

A = M'M = (1„^)’（1„ 〆 ）=户1丄 〆 = nfifJ . 

当 X M - N P (^ a , S ) ( a = l ， …，/0相互独立时，非中心参数 


^ 2 或 ^ = M ' M . 


这里 


M 


>11 

… Mi P ~ 


r / -I 
"1 

.Mnl 

… Mnp. 


-f^n - 


其中/>为随机阵 W 的阶数，《为自由度，一元统计中的/对应/>元 


统计中的协方差阵 2. 

随机阵 W 的密度函数是威沙特于1928年推导出来的，故此分 
布称为威沙特分布. 


阵 A 服从威沙特分布， BP 

A = 2 (-^( o ) — X 、 ( X ⑷一 X ) 1 〜 Wpin — 1，2). 

a=l 

证明根据第二章的定理 2. 5 . 2知 
A = SlZ :， 

o=l 

而 Z «〜 A ^(0,2) ( a = l ，… ，” 一1) 相互独立，由定义 3. 1. 4可知 

A - W p {n - 1,2). (证毕） 

由于威沙特分布是; f 2 分布的推广，因此它还具有 Z 2 分布的一 

些其他性质. ^ 

性质 2关于自由度 w 具有可 加性： ^ W .- Wpin ,,!) (« = 1, 
•••，《相互独立，则 

k 

^jWi — W p ( n , I ), 其中 ” = 〜 + — + 〜• 

i=i 

性质3 设/ > 阶随机阵 W 〜 M ^( n ,2)， C 是 mX /> 常数矩阵，则 
m 阶随机阵 CWC ' 也服从威沙特分布，即 

CWC - W m ( n , CSC '). 

证明因 W 〜％(”，2)，其中 U ，(0,2) («= 

«=1 

1， …， 《) 相互独立. 

令 YpCZa ，则 Y « 〜 iV „(0， CI ： C f ) .故 

X ； r . y ：= j ] cz a - z' a c 

a»*l ff=l 

— CWC ' 〜 W m ( n ， CSC '). (证毕) 

特别地： 

(1) aW 〜 W ^( n ， a 2) ( a >0, 为常数). 

在性质3中只须取 C = ^7,， 即得此结论 • 

.(2) 设/，= (/!，•••，/,)，则 = ，即 

(其中 = 


2 . 威沙特分布的性质 在性质3 中 只须取，即得此结论. 

性质1 设 X u ) 〜(«=1，…， 《) 相互 独立，则样本离差 性质4 分块威沙特矩阵的分布（习题三中第 3 - 4 题）：设 
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X ( a ) 〜 Np ( Q ，2) ( a = l ， …， w ) 相互独立，其中 


又已知随机阵 


X = 


■^11 

--^21 


-^12 r 
乏22」 声 - 



2 K = 


U ?2 十 

- : W n \p - 


r ~ W p ( n , S ), 


则 


(1) W22 〜 W%-r(W，*S 22 ); 

(2) 当石 2=0 时，与 W 22 相互独立. 

性质 S 设 W 〜 W ^(”，2)， 记 则 

^ 22-1 ~ W p _ r (n — , 

其中毛2 • 1 = ^22 — •^21石1 1 之12，且冰 22.1 与 取11 相互独立. 

性质6设随机阵 W 〜 W %(«，2)， 则 E ( WO = nZ . 

性质7设 X 〜 N „ Xf XM ， I 您2)， A 为《阶对称矩阵，则 
X'AX - W p ( r , I , A ), 

其中 A = M'AM A 2 = A ，且 rank ( A )= r . 

这是一元统计中 n 维观测向量 X 的二次型分布在/>维情况下 
的推广(证明见参考文献 [2]). 

性质8设 X 〜 N ， Xi XM , h 购 ， 4和 B 均为; z 阶对称幂等矩 
阵，则 


t z = nX 2 /^= nX'^~ l X 的分布推广到 /> 元总体.设总体 X 〜 
乂(0,2),随机阵 W 〜％(«，2)，我们来讨论：^ = 的分 

布. 

定义 3. 1. 5设 X ~^(0,2), 随机阵 W - W P U ,1) (2>0, 
„>/>)，且 X 与 W 相互独立，则称统计量 T 2 = nX ' W~ l X 为 霍特林 

T 2 统计置，其分布称为服从《个自由度的了 2 分布，记为 

T z - T 2 ip , n ). 

更一般地，若 X 〜 (// 关0)，则称 T 2 的分布为非中心霣 
特林: T 2 分布，记为 T 2 ~ T 2 (/>，《，")• 

2. 霍特林 T 2 分布的性质 

性质1设 X ( a )( a = l ， …， n ) 是来自户元总体 A/p (户， 2) 的随机 
样本， X 和 A 分别是正态总体 iV〆 //，^) 的样本均值向量和样本离 
差阵，则统计量 

T 2 = (n — (X — A~ l \_^/~n (X — ")] 

= n{n — 1) (X — fi.y (X — ft ) 

〜 T 2 (/ >，n — 1). 

证明 事实上，因又〜，则 //) 〜乂(0,2). 
而 A 〜 — 1，2)，且 A 与 X 相互独立.由定义 3.1. 5知 

T 2 ~ T 2 dp , n - l ). (证毕) 

性质2 T 2 与 F 分布的关 系：设 r 2 〜: T 2 (力， 《) ，则 


XMX 与 X ' BX 相互独立 ^ AB = 0. 

这是一元统计中(/> = 1)«维观测向量 X 的两个二次型相互独 
立的条件在维情况下的推广(证明见参考文献 [2]). 


三、霍特林 (Hotelling ) T 2 分布 


1. 霍特林: T 2 分布的定义 

一元统计中，若 X 〜 AK 0， l )，< f 〜; t 2 («)， X 与 f 相互独立，则随 
机变量 


X 

~J 乞 In 


tin). 


n — p -\r \ 
np 

在一元统计中，若 ^ 


T 2 〜 F { p y n — /> + 1). 
X 


K «)， 则 = 〜 F ( l ， n ). 


VTfn 

当 p =\ 时，一元总体 X 〜 iVCO ，^)， Xw («= l ， …， n ) 为来自总 
体 X 的随机样本，则 

W — j ^ X ( a ) X' M = 〜％(« 〆 )(即々(”)). 

<r=l a=l 

所以 

nX 2 = ( X / ff ) 2 
~W = ( W / a 2 n ) 


- T 2 = nX ' W~ l X 


F ( l , n \ 


-般地， 
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-^ w^x 


P + 




X def fi — p \ 安 
X P V 


Ah 


?/«-/> + ! 


F{p,n — /> + 1), 


其中 f = 〜妒(/) ，幻（及=0) .还可证明 

V/ V-1 V 

V = 〜尤 2 (” 一户 + 1) ， 

且€与7独立(详细证明见参考文献 [2]). 

性质3设 X w («= l ，2, … ，”)为来自/>元总体乂(>，2)的随 
机样本.又， A 分别为样本均值向量和样本离差阵.记 
T 2 = n(n - DXA^X, 
n - p T 2 


则 


F(p，n — p ， 8 ) ， 


P n — I 

其中 d=n^fx, 

一元统计中(/ > = 1 时），，统计量与 参数^ 无关.类似地有以下 
性质 • 


性质4 : T 2 统计量的分布只与/>，《有关，而与2无关. 

设 f / 〜7\^(0,八）， IF 。 〜 W ^( n ， 乙）， C 7 和 W 。 相互独立，则 

nU'W~ l U — nX'W~ l X -TKp,n). 

事实上，因 X〜 N P (Jh：E、 (2>0),^~^( n , I ：), l!l IT in X 〜 
JV / O 山），且 2 _1/2 l ^ S — 1/2 〜沢，(》山），因此 

U — l~ l/2 X, W 0 — ^ m W2~ l/ \ 

所以 nU'W； l U — nX'W- l X^T 2 (p,n). 

性质5 T 2 统计量对非退化变换保持不变. 

设 X ⑷(《=1，… ，”) 是来自 户 元总体 iV〆 户， 2) 的随机样本， 

和分别表示正态总体 X 的样本均值向量和样本离差阵，则由性 
质1有 


T \ = nin - 1 )(X - pVd _ ") 〜 T \ p,n - 1). 

令 r w =CUcf ( 0 ：= 1 ，…， n )， 其中 C 为 pxp 非退化常数矩阵， c ? 
为户维常向量，则可以证明（习题三中第 3-4 题） 


T \ = Tl 


四、威尔克斯 ( Wilks ) d 统计量及其分布 


1. 威尔克斯 A 分布的定义 

一元统计中，设$ 〜; t 2 ( w )，7 〜;)： 2 («)，且相互独立，则 

F = ~ F(m,n). 

在两个总体 ( N (内， <) 和 W (// 2 ，<)) 方差齐性检验中 ( H 。： < = 
4)，设 " XOTGii ， …，为来自 iv (内， 4) 的随机样本， yo )0 = i > 
…， 《) 为来自 JV ( 灼， <) 的随机样本，取 < 和 的估计量(样本方差) 
分别为 

4 = r ^ T 2^< o - x ) 2 和 ^ = 

7n 丄 t =i n 丄 》=i 

则检验统计量 


F = 


4 

.2 


^下 


F(m — l，w — 1). 


在户 元总体中，协方差阵2的估计量为 


2 = 




在检验 H 。： 冬 =2 2 时，如何用一个数值来描述对矩阵的离散程度的 
估计呢? 一般可用矩阵的行列式、迹或特征值等数量指标来描述总体 
的分散程度. 

定义 3.1.6 设 X 〜 iV ,(//，2)， 则称协方差阵的行列式|2|为 X 
的广义方差.若 X w («= 1，…，《)为/>元总体 X 的随机样本， Z 为样 

本 离差阵 ，则称或为样本广义 方差. 

n n ——丄 

有了广义方差的概念后，在多元统计的协方差阵齐性检验中，类 
似一元统计，可考虑两个广义方差之比构成的统计量——威尔克斯 
统计量的分布. 

定义 3. 1.7 设耒〜 A 2 ~ W ^ Gi 2 ， I ：) (2>0,« i > 
/>)，旦恚与次独立，则称广义方差之比 
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+ A 2 | 

为威尔克斯统计量或 A 统计量, 其分布 称为威尔克斯分布， 记为 

A 〜 A ( p , n l ， w 2 ). 

当/>==1时， d 统计量的分布正是一元统计中的参数为 nj 2, 
W2 / 2 的卢分布(记为 ./?( ni /2，” 2 /2)). 


2. A 统计置与： T 2 或 F 统计置的关系 

在实际应用中，常把 a 统计量化为 r 2 统计量，进而化为 f 统计 
量.然后我们利用熟悉的 f 统计量来解决多元统计分析中有关检验 


的问题. 

结论 1当 W 2 =l 时，设则 

d I 

AipyHjl)— --- 

1 + -T 2 (/>,n) 
n 

或 


T 2 ( p , n ) = n 


1 — A ( p , n 9 l ) 
A ( p 9 riyl ) 


T 2 


n — -h -j- 1 1 — A d 
- p - — F ( p,n — p + l ). 


n ~ p + 1 
np 

证明 设 Xoo ( a=l ， ••• ， n,n + 1) 相互独立同 A ^(0,2) 分布，显 


然有 


«=1 

»+1 

^ = J]X ia X.y 〜 + 1 ， 2 ). 

«=*1 

由定义 3. 1.7, 知 

A = -|^j ~ A { p , n , l)y 

又因 ^ = ^ + X (n+1) • 久' ( „ +1> ，我们利用分块矩阵行列式的公式(见 
附录），可得 


|則= + x ( „ +1 X + dI = 


i 

— x(»+l) 


1 


分块求行列式公式 


iwm(i+ x'(„ +l n 1) ). 


所以 

]WM = _1_ 

_ 1則—1 +尤”+具％…) 
d 1 

1 + — T 2 { p , n ) 
n 

结论2 当《2 = 2 时 ，设〜=”>/>，则 


(证毕) 


n - P + . 1 ^ =F(2/>>2(n _ /) + 1)) . 

P VA (/>, n ,2) 

结论 3 当户 =1 时，则 


ni 1 A (\ , n 2 ) 

n 2 A ( l 9 n 19 n 2 ) 


F ( w 2 ^ i ). 


利用4(1,/1 1 ,« 2 )就是/?0| 1 /2,7 12 /2)，以及#分布与/^分布的关 
塞即得此结论. 


结论 4当/> = 2时，则 


. 1 - 丄 (2 ， h ^l 丄 F(2 ” 2 , 2(Wi — 1))< 

11 ： ' V A ( K 2, n l , n 1 ) 

结论 5 当 n 2 >2, p >2 时，可用 Z 2 统计量或 F 统计量近似 • 
博克斯 ( Box )(1949) 给出以下 结论： 


设 A ^ A { p , n ^ , n 2 ) ，则当 w — ⑺时， 

— r\nA ~ X 2( . pni ), 

其中 r=« a — y (/> — n 2 + l ). 

当《不太大时也有一些近似分布，我们将在相应的假设检验中 
介绍. 


3. 两个重要结论 

下面不加证明地给出两个很有用的结论 • 

结论 1若4〜4(/> ，〜， n 2 ), 则存在及〜4 ” 1 — 2 />± ^ ，|| ik = 
1，"•，/ >) 相互独立，使得 

八^= B ' ByBp . 

结论2 若72 2 </>，则 
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A ( p , n 1 , n 2 ') = + w 2 — p ). 

结论2是一元统计中 F ( n , m)- d 的 推广. 

§3.2 单总体均值向量的检验及置信域 

本节讨论单个元正态总体的统计推断问题,包括均 
值向量的检验和均值的置信域问题.维正态随机向量的每一个分 
量都是一元正态变量，关于均值向量的推断问题能否化为/>个一元 
正态的均值推断问题呢？显然这是不完全的.因为个分量之间往 
往有互相依赖的关系，分开进行统计推断，往往得不出正确的结论. 
但我们可以构造出类似于一元统计中的统计量，用来对均值向量进 
行检验或求置信域. 

一、均值向量的检验 

设总体 X 〜 JV〆 〜 2), 随机样本 X «(«= l ， …， 《) .检验 
■ Ho : 户=户。（/4为已知向量）， H 1： pi 0 . 

1. 当2=2。已知时均值向量的检验 
因 

X ~ , ~ J~n (X — fx ) ~ N p (0, X o ) , 

利用二次型分布的结论，知 

(X — /O' ( 士石 ）(X — ~ x 2 (p). 

取检验统计量为 

T\ = n(X — /I 0 y (X — Mo) X Z < ， P). 

按传统的检验方法，对给定的显著性水平《，査; t 2 分布临界值表 
得 A ,， 使尸 { T >/ U =« ，则否定域为{71>总}. 

由样本值 x (<0 («= l ， …， 《) ，计算 X 及71值，若 r 〗> A .， 则否定 
H 。， 否则//。相容. 


利用统 计软件(如 SAS 系统），还可以通过计算显著性概率值(户 
值)给出检 验结果，且由此得出的结论更丰富 • 

假设在 H 。 成立 情况下 ，随机变量 T 〖〜： t 2 (力），由样本值计算得 
到7^的值为^，同时可以计算以下概 率值： 

p = P{T 2 0 ^d), 

常称此概 率值为 显著性概率值 ，或简称为/ >值- 

对给定的显著性水平《，当 p < a 时，则在显著性水平《下否定 
假设 H a ; 在这种情况下，可能犯“以真当假”的第一类错误，且《就是 
犯第一类错误的概率. 

当/时，则在显著性水平《下//。 相容; 在这种情况下，可能 
犯“以假当真”的第二类错误，且犯第二类错误的概率3为 

^ = P { T \ < A _| 当户=内关灼}， 

其中检验 统计量 T 〗 〜 Z 2 (/>，5) ，非中心参数 

8= n {^ — — fi 0 ). 

p 值 的直观含义可这样看，检验统计量了〖的大小反映 又与凡 
的偏 差大小，当 H 。 成立时值应较小.现由观测数据计算71值为 
山当 H 。 成立时统计量71〜/(/))，由 f 分布可计算该统计量 
的概率值(即户 值). 比如 P = 0 . 02< a =0. 05, 这时出现一个比小概 
率标准 (《 = 0. 05) 还要小的事件也就是说，在 n 假设 
下，观测数据中极 少情况会出现71的值大于等于 d 值，故在 0. 05 显 
著性 水平下有足够的证据否定原假设，即认为 A 与凡有显著地差 
异. 

又比如当 /) = 0. 22 >a = 0. 05 时，表示在 ( i =^ 的假设下，观测 
数据中经常会出现71的值大于等于^值的情况，故在 0. 05 显著性 
水平下没有足够的证据否定原假设，即认为//与抑没有显著地差 
异. 


2 . 当2未知时均值向置的检验 

当 p = l 时(一元统计），取检验统计量为 


(X — 户 0 ) ^/~n 


t{n — 1 ) ， 


㈤… 


X) 2 
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n 一 1 


A (X — // 0 )， 


或等价地取检验统计量 

推广到多元，考虑统计量 

: r 2 = «(x — 凡）， 

因而 

样本离差阵为 


由定义 3.1.5 可知 

T 2 = (n — 1) • [V^n " (X — A~ x \j^/~n (X — 户 0 )] 

= (w — l)n(X — fi Q yA - 1 (X — 卩 o) 〜 T 2 (p 9 n — 1), 

再利用 T 2 与 F 分布的关系，检验统计量取为 

F = in l T 2 ^ F[p,{n -!)-/> + !) 


解 记随机向量假定 X-N 3 ^,I). 检验 
Ho： (1=忤， Hu "关 /v 取检验统计量为 
n —— p 


¥ 


： T 2 (p = 3,n = 20). 


(n — l)p 

由样本值计 算得： X=(4. 64,45. 4,9. 965/, 及 




' 54.708 


,( 抑，士 2 )， ^T(X-^o) — N p (0,S). 

A = 

190. 190 

3795.98 


-- 34. 372 

- 107. 16 68. 926- 



~ 

0.0308503 


(X M - X)(X W - xy ~W p (n - 1 , 2 ). 

A- 1 = 

- 0. 0011620 

0.0003193 


① 


0. 0135773 — 0. 0000830 0. 0211498 」 

进 步计算可得 

-外 V — — — 

D z = (« - 1KX — ^YA-^X - // 0 ) = 19 X (X - /x 0 )'Y 
=19 X 0. 02563 = 0. 48694, 

其中 Y = A ~ i a - M o \ y 也可通过解线性方程组 ay = a -^ rmi . 
T 2 = n(n — 1)(X — fi o yA~ l (X — // 0 ) = 9. 7388, 


--- F(p,n — p), 

例 3. 2.1 人的出汗多少与人体内钠和钾的含量有一定的关 
系.今测量了 20名健康成年女性的出汗量 (XO、 钠的含量 (X 2 ) 和钾 
的含量 (X 3 ) (数据见表 3. 1) .试检验 H。： 户=//。=(4,50，10)'， H 1: 
fj^/ji 0 (a=Q. 05). 


表 3. 1 成年女性的出汗置及其体内钠和钾含置的数据 


序号 

X 、 

x 2 

x 3 

序号 


X 2 

x 3 

l 

3.7 

48.5 

9.3 

2 

4.7 

65. 1 

8.0 

3 

3.8 

47.2 

10. 9 

4 

3.2 

53.2 

12.0 

5 

3. 1 

55.5 

9.7 

6 

4,6 

36. 1 

7.9 

7 

2. 4 

24.8 

14.0 

8 

7.2 

33.1 

7.6 

9 

6. 7 

47.4 

8.5 

10 

5.4 

54.1 

11, 3 

11 

3. 9 

36.9 

12.7 

12 

4. 5 

58.8 

12.3 

13 

3. 5 

27.8 

9. 8 

14 

4.5 

40. 2 

8.4 

15 

1.5 

13.5 

10. 1 

16 

8. 5 

56.4 

7.1 

17 

4. 5 

71.6 

8.2 

18 

6. 5 

52. 8 

10.9 

19 

4. 1 

44. 1 

11.2 

20 

5.5 

40. 9 

9.4 


对给定«=0, 05,按传统的检验方法，可查 F 分布临界值表得 
X=F3：n(0. 05) = 3. 2. 比较由样本值计算得到的 F 值及临界值，因 
F=2. 9045<3.2，敌//。相容. 

1 '利用 统计软件进行检验时，首先计算/>值(此时检验统计量 F 〜 
^(3,17))： 

p == P{F > 2. 9045} = 0. 06493. 

因 P=0. 06493>0. 05=a， 故相容.在这种情况下，可能犯第二类 
_ 误 ，且犯第二类错误的概率为/?=尸{尸 <3. 2|^=Z}==0. 3616 ( 假 
走总体均值//二灼古户。，取 //i=X). 

下面介 绍构造检验法的似然比原理，并说明由一元统计推广得 
的 T 2 统计量是检验//。的似然比统 计量. 

表._ 

^ ' ①因 A 为对称矩阵 , 故只列出下三角部分，以下同 . 
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二、似然比统计童 


在数理统计中关于总体参数的假设检验，通常是利用最大似然 
原理导出似然比统计量来进行检验.在多元统计分析中几乎所有重 
要的检验都是利用最大似然比原理给出的•下面我们回顾一下最大 
似然比原理. 

设声 元总体的密度函数为/(1，幻，其中0是未知参数，且 eee 
(参数空间），又设0。是0的子集，我们希望对下列 假设： 

Hqs 0 @0 » //j • d 0 00 

作出判断，这就是假设检验问题.称 H 。 为原假设(或零假设），为 

对立假设(或备择假设). 

从总体 X 抽取容量为《的样本 X w («= l ， …， 《). 把样本的联合 
密度函数 


L (工⑴，…，= JX /( x ( I ) ；(9) 

记为 L ( X ； d ) ，并称它为样本的似然函 
引入统计量 

A = max Li . X ',6) / max L { X -, d ), 
eee 0 I eee 

它是样本 X W G =1, …， n ) 的函数，常称 A 为似然比统计置.由于 
0。匚0，从而 0< A <1. 

由最大似然比原理知，如果 A 取值太小，说明 H 。 为真时观测到 
此样本 X w (f = l ， … ， n ) 的概率比//。为不真时观测到此样本 X (I) U 
=1，…， 《)的概率要小得多.故有理由认为假设 H 。 不成立，所以从 

似然比出发，以上检验问题的否定域为 

{ A ( X ( d ,••• <[ A „}. 

按传统的检验方法，是由显著性性水平《确定的临界值，它满足 

当 H 。 成立时 使得： 

F { A ( X a) ,— , X (n) ) < A ,} = a . 

为了得到 A , 必须研究似然比统计量〗的抽样分布.在一些特殊的情 
况下，可以得到 A 的精确分布;但在很多情况下是得不到 A 的精确 
分布的.当样本量很大且满足一定正则条件时， 一 2 lnA 的抽样分布 


与 f 分布十分接近.下面不加证明地给出一条很有用的结论. 

定理 3. 2. 1 当样本容量《很大时， 

— 2 lnA =—2 ln (max L ( X ；6 ) / max L ( X ；6) 

L oe9 0 / ees 」 

近似服从自由度为 / 的: f 2 分布，其中 f =& 的维数 一 0。的维数. 

本章将讨论的一些检验问题，就是利用似然比统计量的近似分 
布进行检验的方法.下面我们来导出当2未知时检验均值向量// = 
^ 的似然比统计量，并讨论它的分布 • 

设样本的似然函数为 L (/ u , S ). 检验均值向量 ^ = 的似然比 
统计量为 

A = max L (/ a 0 yS )/ maxL (//,2). 

^=/ x Q , I>0 / ^,£>0 


在第二章 §2. 5 中已经 导出： 上面比式的分母当户 = X ， 2=士4时 
达最大值，且最大值为 


max = (27 r)~ np/z 



—n/2 


由习题二第 2-15 题知，上面比式的分子当 

^ ft 

^ = T 2 (X(*.) — ^ 0 )(X O) — // 0 > , = 丄 A 0 

71 i=l 71 

时达最大值，且最大值为 



maxL(/jt 09 S) = { 2 Tc)~ npn 



— n/2 

e ~ np/ \ 



以下来推导似然比统计量 A 与 T 2 的 关系： 

n 

^ o== 2 — // O )(x 0) — /z 0 y 

i=i 

n 

=E (久 《 — X + x — 凡 ）（ x (,) - X + X - ( X 0 y 

i=l 


^ = ^ + n(X — // 0 )(X — /u o y , 

5 用 分块矩阵行列式的性 质有： 

l^o|= \A + n(X — /x Q ^)(X — /u o y \ 
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所以 


A \ 

一 (X 一 户 0 ) 

J ~ n：(X - Mo )' : 

1 


= I-A j . (1 + n(X — / Ji o yA 1 (X — /^ o ))* 

⑷ _ 1 _ = _ I _ 

I-^o I 1 4- n(X — / J - o)'A '(X — //。） 1 + 1__了 2 

~ n — I 


其中 

— /^下 

T 2 = (n — l ) n(X — A~ x (X — fta ) - T 2 ( p,n — 1 ). 

否 定域： 


{ A < ㈡ { T 2 > Tl )^{ F > F a ), 


其中 F =- 


— pT 2 H o: 
p n — \ 


F ( p,n — p ). 


三、置信域与联立置信区间 

在一元统计中，讨论均值的假设检验问题本质上也等价于求均 
值的置信区间.下面就单个多维正态总体均值向量的置信域的概念 
作为一元统计中置信区间的推广给出简单介绍. 

1. 置信域 

假设 • X W G = 1，2, …， w ) 来自/>元正态总体 (2 未 
知），由前面的讨论可知 

T 2 = n(X - fxys- l (x — //) 〜 THp,n - 1), 

或者 F = ( d T 2 〜 F ( P，n — p ). 

任给置信度 1一《， 査/分布临界值表得 尺满足 

P { F < F „} = 1 - a , (3.2.1) 

则均值向量 A 的置信度为1一《的置信域为 

T 2 = n(X - fxys~\x - {n ~ l l P Fa. 

n —— p 

该置信域是一个中心在叉的椭球. 

当检验假设 H 。： //=押时，若户。落入上述置信域内，即 
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T 2 = n ( X - ^ YS~\X 一 殉）< (” — l l P F a , 

n 一 p 

j ® i . 在显著性水平《下，只。 相容; 若抖没有落入上述置信域内，则否 
^ Ho . 可见在多元统计中，讨论均值向量的假设检验问题本质上也 
价于求均值向量的置信域 • 

例 3. 2. 2 沿用例 3. 2. 1 的数据，试求 y 的置信度为 95% 的置 

信椭球 • 

解由观测数据计算样本均值向量 X 和样本离差阵 Z 及样本 
_友差阵 5 

「 2. 8794 

V - •:' 1 

S = — L -r^4 = 10.0100 199. 7884 ， 

n — I 

-- 1. 8090 — 5. 6400 3. 6277- 

S 的特征值 A 和单位正交特征向量/分别为 

Aj = 200. 4625, h = 4. 5316, A =1.3014; 
li == (0. 05084,0. 9983, 一 0, 02907 )、 

•- 4=(— 0. 5737,0. 05302,0. 8173)、 


li = (0. 8175, — 0. 02488,0. 5754)% 

^^ n ^- p P ) F °^ = 20 Xl 7 X3 - 2 = 0 - 5365 .由 的谱分解式 

的”‘ t 3 

*»=i i 

并令乂 =( X —//)7,(/ = l ，2,3), 则 // 的置信度为95%的置信椭球为 


ZI 

X x c 2 


n 

v 2 


ZL 

v 


< 


i . 


董信捕球的第一长轴半径为 d x = ^ r ^ c —\ Q . 3703,方向沿第二长 


轴半径为<^ 2 = VI 7 c = 1. 5592, 方向沿/ 2 ;短轴半径为 (^3 = v r A^c = 


0 - 8356,方向沿第一长轴与短轴的比为 djd % = \ l . 4106,即第一 
| 轴的长度是短轴的12倍还多. 


2. 联立置信区间 

在构造均值向量//的置信域 nCX -^ y ^- HX - z / oXc 2 的同 
时，我们往往更需要考查 P 的线性组合的联立置信区间. 
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设 X - N p { fx , I } ，考虑 X 的线性组合 

Z = a l X 1 + a 2 X 2 + …+ a p X p = a ' X , 

由多元正态分布的性质2 可知： Z - NU ^, a ' la \ 假设 
0=1，2^"，《)为/>元正态总体^^<>，^)的简单随机样本，则总体2 
的样本为 

Z (,) = a 1 X (t) 0=1，2"..，《)， 

且样本均值和样本方差分别为 Z ^ a ' X , 这里 X 和 S 分别 

是样本 XcrtGzl ，2,…，《)的样本均值和样本协方差阵. 

对任意的《，考虑 aV 的置信区间便能够得到所要的联立置信 
区间.事实上，当 a 固定而 a \— a ' I,a 未知时，的置信度为 
1一《的置信区间可根据 t 统计量 


Z — fi. z ^/~n {a' X — a 1 fi) 

t = - - = - - - 1 - 

s z / ^J~n V a! Sa 

得到.于是置信区间为 


a 1 X — t a/2 


a 1 Sa 

^/~n 


+ t a/2 


a / a f Sa 

VTT , 


(3.2.2) 


其中尤《/ 2 满足：尸{ Ul ^«/ 2 } = 1~« (这里 

由 （3. 2. 2) 式可以给出户的分量 //,(/ = 1，2,…， />) 的置信区间， 
如取 a =^=(0,*-, l ,— ,0) / ，即取 a 第/个分量为1，其余均为0的 
向量，则 （3. 2. 2) 式给出一元正态均值 = A 的置信 区间. 显然通 
过选择不同的系数向量 a ， 便可得到^的若干个线性组合的置信度为 
1- a 的置信 区间; 但请注意，这时总的置信度不再是1 一《，而比1 一 
«低.下面给出构造所有的联立置信区间估计的 Scheffe 方法. 

对给定的样本 X (f> G = l ，2, …， w ) 和系数向量 a ， 若全体 aV 值 
的置信区间是由 （3. 2. 2) 式给出的，则不等式 


t 2 


n[a' (X — aO] 2 
a 1 Sa 




«/2 


成立.若让 a 变化，求所有的联立置信区间，那么应将 (3. 2. 2) 式 
的右边换上更大的常数才较为合理 • 为此来求最大值 


max t 2 = max 

a#0 a^O 


n[a f (X — u)l 2 
a' Sa 


根据附录中定理 7 . 1 有 


max- 

fl 尹 o 


n[a'(X- ^ 
a' Sa 


n(X - n)'S-\X - fx) = T 2 , 


. (3.2.3) 

且最大值在 a 与 S— 1 (又一沁成比例时达到. 

卑理 3. 2. 2假设 X (,>0=1，2, 为来自/>元正态总体 
(2>0 未知)的随机样本，则对所有的 a ，区间 


\_ a ' X 一 d,a' X + d~] 


其中 d 


I (n — l)p 
n(n —— p) 


F a a’ Sa 


包含 a ’ 户的概率为 1 —a (其中满足 (3. 2.1) 式). 

证明由 （3. 2. 3) 式知，： T 2 = n ( X — A )' S _1 (Z — 意味着 
对一切 a ，有 

nla'(.X - fi)J 


a ’ Sa 




即对一切 a ， 有 


a!X 


a r Sa 




a’ Sa 


取/=^^尺0^满足(3.2.1)式），故对所有心则有 


P { T 2 < c 2 } = 1 - 


a . 


(证毕） 


由于置信概率由 r 2 分布确定，因此为方便起见，以后称定理 
3. 2.2 给出的联立置信区间为 T 2 区间 . 在 T 2 区间中，若取 a = e ,= 
(0,… ， 1 ， … ， 0V ， 我们便同时得到 A (/=l, …， /0 的置信度均为 
的 沪区间 


rr 






其中 C 


1 (n — l)p 
(n — p) 


F a 


(3. 2.4) 

其中知为样本协方差阵 s 的第*.个对角元素. 

请 注意：如果在 (3. 2. 2) 式中取 a = e,(i = 1，...，/>)，即每次考虑 
•- 个分量的置信区间，则得到单个^，.(，^^。…，^^的置信度为丄一 

a 的置 信区间 
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— t a/2 < //,- < X , + t an (3. 2. 5) 

比如在例 3. 2. 2中，均值向量//的第一个分量 ft ，由 （3. 2. 4) 式可得 
置信度为95%的置信限为 [3. 3972,5. 8828]; 由 （3. 2. 5) 式可得单个 
tH 的置信度为95%的置信限为 [3. 8459,5. 4341]. 

若把这个形如 (3. 2. 5) 式的区间合在一起构成= 

/») 的联立置信区间，其置信度比1 — «低.请读者仔细比较（3.2.4) 
和 （3. 2. 5) 式在统计意义上的差别. 

§ 3. 3多总体均值向量的检验 


-、两正态总体均值向置的检验 


1. 两总体协方差阵相等(但未知)时均值向置的检验 

设 U «= l ， …， 》) 为来自总体 X 〜 沁(> (1) ，2)的随机样本; 

为来自总体 Y 〜沁(// 2> ，: S ) 的随机样本，且相互独 

立，2未知.检验 

Ho ： = { P -\ H 1： 

当 p = l 时，因 Z 〜爪卜⑴ 0 ， F 〜 从(，，£)，且相互独 
立，故有 

X — 7 〜 ' ("⑴ — ，>，(士 + 士 p )， 


(X (i) - X ) 2 + 2(^0, -F) 2 


1 + m 


取检验统计量为 



即 


" 0 下 


t{n + m 一 2) » 
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2 = - nT ^-(x—Yy S d)— 幻 2 + X) (F(j)—y) 2 y) 

w + w L n-\-m 一 2 - 

Fil »w+w 一 2). 

推广到元总体，检验统计量的形式类似，可考虑以下检验统 


肝量 : T 2 : 


_np_ (X _ 7y (_^±A_j-' (X _ 7)> 


其 中烏和 乂 2 是两总体的样本离差阵.上式是一元统计中的偏差平 
[^和 U ( X «)- X ) 2 在/>元情况下的推广 • 

' 以下来证明统计量了 2 〜 r 2 (户， n+w —2) .因 


—— — 只0下 

(X - Y ) ~ 


N 0 七+幻 2 )， 


； \ n + m F 

{ _ « 

I Ai — ^ (X (a) — x)(x (<t) 一 xy 〜 W^(n — 1 ， * 2 ) ， 

j o=l 

! m — — 

I a 2 = 2 ( y ( „) - F )( y <0) - ry - w p {m - i ，2). 

i 由成 沙特分 布的可加性知 

j A 1 + A z ^ W p {n + w — 2,2). 

W ' f 1 统计量 的定义 3.1. 5 可知 

3 U ：?- — 2 ) F )'A + 4)—*( 又一 F ) 

— ' ^ TKp,n + m -2). 

与 F 的关系，检验统计量取为 


H ~ m — 2) — p \ 
(n + m — 2) • /> 


了 2 〜 F ( p，n + m — /> — 1). 


可以证明: r 2 (或 f ) 统计量是检验以上假设 h 。 的似然比统计量. 

例 3. 3.1 为了研究日、美两国在华投资企业对中国经营环境 
的评价是否存在差异，今从两国在华投资企业中各抽出10家，让其 
游=国的政治、经济、法律、文化等环境进行打分，评分结果如表 3. 2 
所示(表中序号1至10为美国在华投资企业的代号 ，11 至20为日 
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本在华投资企业的代号.数据来 源于： 国务院发展研究中心 APEC 
在华投资企业情况调查). 


表 3. 2日、美两国在华投资企业对中国经营环境的评价数据 


序号 

政治环境 

经济环境 

法律环境 

文化环境 

1 

65 

35 

25 

60 

2 

75 

50 

20 

55 

3 

60 

45 

35 

65 

4 

75 

40 

40 

70 

5 

70 

30 

30 

50 

6 

55 

40 

35 

65 

7 

60 

45 

30 

60 

8 

65 

40 

25 

60 

9 

60 

50 

30 

70 

10 

55 

55 

35 

75 

11 

55 

55 

40 

65 

12 

50 

60 

45 

70 

13 

45 

45 

35 

75 

14 

50 

50 

50 

70 

15 

55 

50 

30 

75 

16 

60 

40 

45 

60 

17 

65 

55 

45 

75 

18 

50 

60 

35 

80 

19 

40 

45 

30 

65 

20 

45 

50 

45 

70 


解比较日、美两国在华投资企业对中国多方面的经营环境的 
评价是否有差异问题，就是两总体均值向量是否相等的检验问题.记 
美国在华投资企业对中国4个方面的经营环境的评价为4元总体 
X ，并设 X 〜 日本在华投资企业对中国经营环境的评价 
为4元总体 y ，并设 Y 〜 N ‘ ，: S ). 来自两总体的样本容量《 =讲= 
10. 检验 

N 0： fi a) = fi m , H lt 

取检验统计量为 


p __ n m — p — \ rj , 7 
(« + m — 2)/> 

由样本值计 算得： 


ip = \,n = m ~ 10) ， 


X = (64,43,30. 5,63)，， 

Y = (51. 5,51,40,70. 5)'， 

n 

⑷—又 — X )' 

«=1 

_ 490 _ 

——170 510 

_ — 120 10 322.5 ^ 

-—245 310 260.0 510- 

m 

A 2 = D (Tu) - 7)<r ⑷ 一 f )， 

«=1 

"502.5 _ 

__ 60.0 390 

— 175.0 50 450 ' 

7. 5 195 — 100 322. 5 - 

进一步计算可得： 

D 2 = (n + m ~ 2)( X - Y) f ( A 1 + A 2 )~ l ( X - Y ) 
=18 X 0. 3318055 = 5. 9725, 


r2 = ^ D2 = 29 . 8625 , 


n m — p —— 1 
(n + m — 2 )p 


T 2 = 6. 2214. 


对给定显著性水平 《==0. 01，利用统计软件进行检验时，首先计 
算/»值(此时检验统计量 F ~ F (4,15»： 


p = P{F > 6. 2214} = 0. 0037. 

因 P =0. 0037 C 0. 01= a ，故否定//。，即日、美两国在华投资企业对 
中国经营环境的评价存在显著性差异.在这种情况下，可能犯第一类 
错误，且犯第一类错误的概率为 0. 01. 


2. 两总体协方差阵不等时均值向置的检验 

在一元统计中(/ » = 1 时），当时，检验 H 。： "⑴ 也没 
有很好的方法，以下介绍实用中的几种方法. 

(1) 当 « = m 时，作为成对数据进行处 理：令 
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Zm = X m — Y Ci) (i — 1 ， … ， n ) ， 

将两个总体化为单个力元总体 Z 的均值检验问题 

H 0： 户⑴= / i <2) <=^ H 0： = 0^. 

利用 §3. 2中介绍的方法进行检验. 注意： 在这里叉„，: T w (f = l ， 
…，《)相互独立的信息没有利用. 

(2) 当 n#m 时(不妨设 n < m ).. 想法也是将其化为单个/>元新 
总体的均值检验问题.若只取 n 对数据，按 (1) 的方法处理又将损失 
一些 信息. 改进的办法是利用叉《)(*’=1，…，”)和 y ())(_/= i ， …，》1) 
构造新总体 z 的样本 z « ，令 

0 = 1，2,…， m ) ， 

可以 证明： 

E(Z (l) )= — a/— // ( 2) + j_n// (2) 一丄 • 

= "⑴- +1 -屈 = ， _ ，， 


COV ( Z (0 , Z (j> ) 


r i+ ^- 以时 
b ， 当*_关）时 


所以 z ( 0 〜 w〆〆 1 )- 〆 2 )，^) (£=1，…， 《)， 且相互独立•利用前面介 
绍的单个正态总体均值向量的检验方法进行检验. 

(3) 当各 ，冬 相差甚大时，可构造近似检验统计量进行检验(见 
参考文献 [1]). 


二、多个正态总体均值向置的检验——多元方差分析 

设有 k 今 p 元正态总体 N p { ft w ,2,) ( f = l , —， A )， 样品0 = 
1，…，々，《=1,…，叫)是来自的随机样本，检验 仏： 

1: 至少 存在# i 使得 〆 （即中至少 

有一对不等). 


当/ > = 1 时，此检验问题就是一元方差分析问题，比如比较是个 
不同品牌的同类产品中某一个质量指标如耐磨度)有无显著差异 
的问题.我们把不同品牌对应不同总体(假定为正态总体），这种多组 

比较问题就是检验 

Ho : 户⑴=戶( 2 )=…=至少存在 * •关）使 〆 0 参//(，). 


从第:•个总体抽取容 量为” ，的随机样本如下= 1，…， h 记 n = + 
n 2 + — +«*) i 


记 


Y<.1) 

A (l) ， 

Y ⑴ 
〜 2) ， 

y(l) 

y(*) 

A ⑴， 

y(*) 
〜 2) ， 

... x(*) 

* 


1 n< 

<=1 j=l 

x w = 

=(< = i ， … ，是 ). 


当户 =1时，利用一元方差分析的思想来构造检验统计量.记: 


k ", 


总偏差平方和 SST = 2 S ( X «- X ) 2 ； 

*=1 >=1 

组内偏差平方和 sse = U 士 (, x %- x U) y 

*«l j=l 

组间偏差平方和 SSA ^ Yjn , a w - X ) 2 . 

脚有平方和分解 公式： 


SST = SSA + SSE . 

直观考察，若//。成立，当总偏差平方和 SST 固定不变时，应有 SSA 
食而 SSE 大，因而比值 SSA / SSE 应很小.检验统计量取为 


F = 


SSA/Qfe — 1) 
SSE / (n —是） 


下 


F(k — l,w — k ). 


给定显著性水平《，按传统检验方法，查 F 分布临界值表得 F 。 满足: 
否定域 

趣 }; 推广到 々个/ >元总体 N p ( M w , S ) (假定 zfe 个总体的协方差阵相 
多，且记为之），记第 〖个 元总体的数据阵为 
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X 0 


「 （*•) ^(0-1 
工 11 … x \p 


- xr(i') / - 
^(1) 

• • 


• 

• • 

== 

• 

r (,> … 工 (0 


\Ki) / 

A (n f .) J 


(i = 1，… , k ). 


对总离差阵： T 进行 分解： 

t= 2 2(x«-xxx«-xy 

«=i j=i 

= 2E (叉沒 一 x w ) + x 0> _xxx^ - x (,) + x <0 - xy 

i=i )=i 

i = l >=1 

+ i ] t ( x w _ x )( x w _ x )， 

»=1 >»1 

=+ &>,(x (，）一 x)(x 0) - xy 

i=l *=i 

=A + By 

其中 A = f ； A , 称为 组内离差阵， 

B= f>,+(X (，）一 X)(X 6 ) — XV 

i=l 

称为 组间离差阵. 

根据直观想法及用似然比原理得到检验 H 。 的统计量为 
, UI ⑷ 

\A + B\ - \T\ - 

易见： 

(1) 因 A 〜且相互独立(*• = !，…，是），由可加性可 
得 

k 

A = 〜 Wp{n — k,2) (w = 〜十 … + n*). 

«=i 

(2) 在 H 。 下， T-W P (n-l,S). 

(3) 还可以证明在 Ho 下， B 〜 W〆 是 一1，2) ，且 _B 与 A 相互独 
立. 


根据 d 分布的定义，可知 

. . \A\ h 0 t Ay ,, 

A = 5 | .~ Mp,n — k,k — 1 ). 

给定显著性水平《，查威尔克斯分布临界值表，可得 A 。， 使 

P { A <. A „} = a , 

故否定域 {^< AJ . 当手头没有威尔克斯临界值表时，可用 Z 2 分 
布或 F 分布来近似，即由 A 的函数的近似分布进行检验（见参考文 
献 [1] 或 [2]). 

例 3. 3. 2为了研究某种疾病，对一批人同时测量了 4个 指标: 
在脂蛋白 (兄） ，甘油三酯 ( X 2 )， a 脂蛋白 （ X 3 )， 前/?脂蛋白 （ X 4 ) .按 
不同年龄、不同性别分为三组 (20 至35岁的女性、20至25岁的男性 
和35至50岁的男性），数据见表 3. 3. 试问这三个组的4项指标间 
有无显著性差异(《=0. 01)? 


表 3. 3 身体指标化验數据 


Xl 

x 2 

X 3 

x 4 

组 

Xi 

x 2 

Xz 

Xa 

组 

Xi 

X 2 

x 3 

X 4 

组 

260 

75 

40 

18 

1 

310 

122 

30 

21 

2 

320 

64 

39 

17 

3 

200 

72 

34 

17 

1 

310 

60 

35 

18 

2 

260 

59 

37 

11 

3 

240 

87 

45 

18 

1 

190 

40 

27 

15 

2 

360 

88 

28 

26 

3 

170 

65 

39 

17 

1 

225 

65 

34 

16 

2 

295 

100 

36 

12 

3 

270 

110 

39 

24 

1 

170 

65 

37 

16 

2 

270 

65 

32 

21 

3 

205 

130 

34 

23 

1 

210 

82 

31 

17 

2 

380 

114 

36 

21 

3 

190 

69 

27 

15 

1 

280 

67 

37 

18 

2 

240 

55 

42 

10 

3 

200 

46 

45 

15 

1 

210 

38 

36 

17 

2 

260 

55 

34 

20 

3 

250 

117 

21 

20 

1 

280 

65 

30 

23 

2 

260 

110 

29 

20 

3 

200 

107 

28 

20 

1 

200 

76 

40 

17 

2 

295 

73 

33 

21 

3 

225 

130 

36 

11 

1 

200 

76 

39 

20 

2 

240 

114 

38 

18 

3 

210 

125 

26 

17 

1 

280 

94 

26 

11 

2 

310 

103 

32 

18 

3 

170 

64 

31 

14 

1 

190 

60 

33 

17 

2 

330 

112 

21 

11 

3 

270 

76 

33 

13 

1 

295 

55 

30 

16 

2 

345 

127 

24 

20 

3 

190 

60 

34 

16 

1 

270 

125 

24 

21 

2 

250 

62 

22 

16 

3 

280 

81 

20 

18 

1 

280 

120 

32 

18 

2 

260 

59 

21 

19 

3 

310 

119 

25 

15 

1 

240 

62 

32 

20 

2 

225 

100 

34 

30 

3 

270 

57 

31 

8 

1 

280 

69 

29 

20 

2 

345 

120 

36 

18 

3 

25 Q 

67 

31 

14 

1 

370 

70 

30 

20 

2 

360 

107 

25 

23 

3 

j 66 

135 

39 

29 

1 

280 

40 

37 

17 

2 

250 

117 

36 

16 

3 
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解 比较三个组 U = 3) 的4项指标(/ > = 4) 间是否有差异问题， 
就是多总体均值向量是否相等的检验问题.设第〗组为4元总体 
N 4 ( 〆 0 ，2) (f = l ，2,3)， 来自3个总体的样本容量 
检验： 

H 0 ： ^ ^ H 1： 户⑴, 〆 2 )， 〆 3 〉至少有一对不相等 • 

因似然比统计量 A 〜 — ，在此例中々一1 = 2,可以 
利用 A 统计量与 F 统计量的关系，取检验统计量为 F 统 计量： 


(n — k) — /> + 1 1 — ^s/ A 
P J~K 


{k = 3，/> = 4 ,n = 60)， 


由样本值计算得: X =(259. 08,84.12,32. 37,17. 8 V ，以及 



"231.0" 


"253. 50' 


"292. 75 " 

x w = 

89.6 

32. 9 

， x (2) = 

72. 55 

32.45 

， x (3> = 

90. 20 

31.75 


L 17.1」 


L 17.90」 


L 18.40」 


a= + a 2 + a 3 = X ； 2 — x (0 )(x^ - x U) y 


125408.75 
23278.50 
一 3950. 75 


40466. 95 

- 1937.75 2082.50 

2166.30 - 26.90 1024.40- 




164474. 580 
25586.417 
- 4674.833 
2534.000 
进一步计算可得 


44484. 183 

- 1973. 567 2095. 933 

2139.400 - 41. 600 1041.600」 


4 




7. 8419 X 10 1 
1. 1844 X 10 1 ' 


0. 6621, 


/ 


k — p \ 1 — 

p -TR 


54 1 — V 0. 6621 
4 V 0. 6621 


3. 0907. 


对给定«=0. 01，利用统计软件(如 SAS 系统），首先计算户值 
(此时检验统计量 F 〜 F (8，108)): 

p = P{F > 3. 09007} = 0. 003538. 

因 p ^ O . 003538<0. 01=«，故否定 H 。， 这表明三个组的指标之间有 
显著的 差异. 在这种情况下，可能犯第一类错误，且犯第一类错误的 
概率为 0. 01. 

进一步地若还想了解三个组指标间的差异究竟是由哪几项指标 
引起的，可以对4项指标逐项用一元方差分析方法进行检验，我们将 
发现三个组指标间只有第一项指标 X ,有显著 差异. 

事实上，用一元方差分析检验第一项指标在三个组中是否 

有显著差异时，因 

I ：. f = ( f n — a„)/q - 1) = (164474. 58 - 125408. 75)/2 
ajin - k ) ~ 125408. 75/57 

= 8. 8780, 

其中和分别是: T 和 A 中的第一个对角元素，有 
Pi = P { F !> S . 8780} =0. 0004401 (检验统计量心〜尸 （2,57)) ， 

因/», = 0. 0004401显著地小于0.01，故第一项指标在三个组中 

有显著差异. 


§ 3.4 协方差阵的检验 

单个/>元正态总体协方差阵的检验 

设 X w («= l ，...，„) 为来自 p 元正态总体 (2>0未 

知)的随机样本，检验 

2 = 2。(2。>0为已知矩阵）， 2 0 . 

1 -当叉=八时检验 H 。： S = I „ //,： 2^ I P 
利用似然比原理来导出似然比统计量入 1: 

^1 = max L(jh 9 I p ) / maxL(^,2). 

m ! fA,s>o 

当成立时，似然函数在 M = x 达最大值，因此 
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A 表示式的分子= L ( X , I p ) 


(2 兀广 〆 2 |JJ—" /2 exp| — 

n /1 


Ai 表示式的分母 =々々 ha 兀) 


~ np /2 


—A 

n 


- np /2 


^ \ ~»t>/2 

(2^)~ np/2 - \ A \-" n . 

n I 


, np /2 


所以似然比统计量 

I = exp I — ytr ( A )| | A |" /2 ( 含 

n 

其中 a = - xy . 

a=l 

利用定理 3. 2.1 可知，当 n 很大且 H 。 成立时， f =-2 lnA ! 的近 
似分布为色 ( J > 2 +1) j ，利用检验统计量$来构造检验方法. 

2. 当 &关乙时检验//。： ^=2 0 , H l: 

因2。>0,存在非退化矩阵，使 D 2 o £)'= h . 令 
7(., = DX (a) ( a = l〆 ..，”）， 


则 

检验 


def 


y ⑷〜 N p (Dfi,DID') — N f ( M ' ,2 -). 

H a -. E — S 0 Ho ： 2* = If ,. 

从新样本 y („ >( >= i ， …， w ) 出发，检验 //。： r ^ I p 的似然比统 


def 


计量取为（以下记 exp ( trA ) == etr ( A ))： 

A 2 =expU | tr ( A * | n/2 ( - 


I ” 〆 2 


etr 


士 yr |A* r /2 - 


I n P/2 


其中 


A * = 2 ( Y m - 7)( y ⑷一 FV = DAD '. 

a=l 

若注意到£>2。£>'=八，则似然比统计量/1 2 还可以表示为 


A 2 = etr (—音 AS。j | AS ; 1 1 " /2 ( 含 j • 

研究 似然比统计量七的抽样分布是很困难的，通常根据定理 
3. 2. 1 由 七的近似分布来构造检验法_ 

当样本容量 n 很大，在 H 。 成立时， 一2 lnA 2 的极限分布为 


除此 以外，在不同适用范围下还有其他近似分布可用来构造检验法 
(见参考文献 [1] 或 [2]). 


〜 3. 检验 H 。： 未知） 

.当厶=八时此检验常称为球性检验.以下利用似然比原理来导 
出似然比统计量 A : 


A 3 = maxL (//,< r 2 -2 0 ) / 

M,a 2 >o I 


maxL(^,2). 

//,2>0 


当^给定时 ，似然函数 L (/ i ，< r 2 &) 在 m - X 达最大值，且 


L ( X , o 2 S 0 )= ( 2 ^ r np / 2 \< r 2 S 0 \ — " /2 exp 


- tr (( ff 2 E 0 )~ l A ) 


(27t)-^ /z (o 2 )-" #/2 |2 0 r" /2 etr(- 


令 


— ( 3^ 2 ^ 0) =(27r)-""w" 2 _ 2 i2 0 r /2 e t r ( — 


^ + -^-tra o -M)l=0, 


可得出 # = _ trCS 。— M ). 从而有 

/ 1 \ — ” P /2 

々表示式的分子 = (2^)-^ 2 (^«(2 0 -*/1)] |2 0 |- /2 e -^ /2 , 

义3表示式的分母 = l ( x ,^ a )= (2 f /2 ( t 厂 ' /2 | A 「* /2 . 
所以似然比统计量 


ij £ Mr ^ 

[tr(_S 0 —M)/ 户 : T /2 ’ 
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或等价于 




当样本容量《很大，在 W 。 为真时有以下近似 分布： 

~ ((n - 1) - 2 户 2 + 6 / —)^W 近似为 y 2 ( ⑽ 2 十 D — l ) 


二、多总体协方差阵的检验 

设有々个总体 N〆〆 ” ，工） U = l ， …，々）， W /= l ， …，々 ； a = 

1，…，〜)为来自第尤个总体沁( 〆 "，名)的随机样本，记”=乏>•检 

1=1 

a def 

验 H 0: 名 =2 2 =-..=2*==2， H 1: 名，厶，…， 工不全相等. 

样本 < X =} 的似然函数为 

L (户⑴ ，岑， … 

似然比统计量 A 4 为 

A 4 = max IAf/ 1 、 ， … ， f/ k 、， X) ! max ZX〆 1 ) ，石， … ， 〆*) ， _2*). 
/°，：>0 ' /°,：£ | _>0 

从而有 

上式的分母 =max L (// (1 ) ，各 ，…， 〆 )，&) 


n ㈤ 


-» t pn I ^ I 


=(27 r )~ n />/2 e _np/2 TT —I 
tA nt I 

上式的分子 = max L(〆”， …，〆 *)，*2) 


= (2^r npu e 
则似然比统计量\为 


\pn-npn 


(其中 A = 4 +…+儿）， 
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根据无偏性的要求进行修正，将 A 4 中的 72, 用 n -\ 替代， 72 用 
n ^ k 替代. 然后对々取对数，可得到统 计量： 

Af =— 2lnA: = (n — 々 )ln ^ , — 2 ( n * _ l)l n ^ , • 

n _ R n t —丄 


当样本容量 《 很大时，在//。为真时 M 有以下近似 分布: 
(1 — d)M =— 2(1 — <i)lnA: 〜 X 2 (f), 

其中 

/ = \ p^P + 1)( 是 一1) ， 


2p z + ip —— 1 [~ 1 

, 6( 户 + 1)(^ ~ l)L^f n, - 1 

a = "S 

{2P 2 + 3P- l)(/fe + 1) 
v; . 6(/> + 1) (n — k) ’ 



当》，不全等， 
当 n, 全相等. 


.例 3. 4. 1对例 3. 3. 2表 3. 3中给出的身体指标化验数据，试 
判断三个组(即三个总体)的协方差阵是否相等(《=0. 10)? 


解这是三个4元正态总体的协方差阵是否相等的检验问题. 
1 索) '组为4维总体 M(// 0 ，2,) G= 1，2 ,3) .来自三个总体的样本 


容童 «1 = «2 ：= ^3 =：= 20.检验 


i^O : 石=各= <2 3 ，: Si 9 S 2 * ^3 至少有一对不相等. 
在 H 。 成立时，取近似检验统计量为 : t 2 (/) 统 计量： 
f = (1 — d)M =— 2(1 — d )\ nX ^ . 

由样本值计算三个总体的样本协方差阵： 


»1 -1 


A n— 1 


X ⑴ 一 又⑴)， 



' 30530 

J_ 6298 15736.8 

19 - 1078 — 796. 8 955. 8 

- 198 1387.8 90.2 413.8 
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s 2 = 


； A 2 


”2 


-*• J , •— 1 


(2) 

(a) 


x (2) )(x11] -x (2) y 


19 


51705.0 
7021.5 


12288.95 


1571.5 - 807.95 364.95 

827.0 321.10 — 5.10 133.8」 


» S 3 = 




n 3 


~ iS (X 


( 3 ) 

(a) 




T 3) ) 


" 43173.75 

j _ 9959.00 12441.2 

19 - 1301.25 — 333.0 

- 723.00 457.4 


进一步计算可得 


= 742890016, 


761. 75 

- 112.00 476.8- 


|5 ; | = 791325317, 


|5 2 | = 145821806, |5 3 | = 1.08116 X 10 9 , 

M = 22. 6054, d = 0. 1006, / = 20, 

f = (1 — d)M = 20. 3316. 

对给定 «=0. 10,利用统计软件(如 SAS 系统），首先计算户值 
(此时检验统计量 S 〜; f 2 (20)) : 

P = P {^> 20. 3316} = 0. 4374. 

因 p = 0. 4374>0. 10=«，故//。相容，这表明三个组的协方差阵之间 
没有显著的差异. 


三、多个正态总体的均值向量和协方差阵同时检验 

设有々个总体 乂(//°，2,) 0 = 1，…，/ 0，XgG = l， …，々;《=1, 
… ，n<) 为来自第 f 个总体 N〆〆 1 、 ，2,)的随机样本. 检验： 

•Ho: P u> =户 (2> =…=〆 *>，且=各=…= 2*， 

Hi ： 〆')(*. = 1，…，々 ） 或 2,-(*' = 1，…，是)至少有一对不相等. 

记 


T 


(<) 


V ■⑴ 歹 1 \ ' \、 v ⑴ \飞 

X(J” x = ~Zi n= Zj 


n l 




j=l 


At = S (X <>> - — x w y, A = 

j=\ 间 

T= 

/ =1 j—l 

=A+ ^>,(X ⑴一 — X)'. 

t=\ 

脚检验以上假设 H 。 的似然比统计量为 

II IAI "- /2 




A 5 


\ T \ 


nil 




若用 a 表示当协方差阵均相同时检验々个总体均值向量是否 
相等的似然比 统计量，将发现这里的似然比统计量 a 5 = a . a 4 . 在实 
际应用中我们采用类 似的修正方法，在 A 5 中用《,—1替代《,，用《—々 
春代修正后 的统计量记为<: 


入 5 * 


n ⑷ 


0-/0 2 


n—k k (n f —l)p * 

m 2 n>, —i) 丁 


当样 本容量 《 很大，在 H 。 为真时有以下近似 分布： 
— 2(1 - A ) lnA ； 〜； f 2 (/). 


其中 




； p(p + 3)(々 一 1)， 

2P 2 + 3P 


1 


— 1 n — k ! \ 6(/> + 3 )(k — 1) , 
P ~ k + 2 


(n —々）（/> + 3). 


例 3 .4.2 对例 3. 3. 2表 3.3 中给出的身体指标化验数据，试 
#断三个组(即三个 总体) 的均值向量和协方差阵是否全都相等 (a = 
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0. 05)? 

解这是三个4元正态总体的均值向量和协方差阵是否同时相 
等的检验问题.取近似检验统计量为近似; f 2 统 计量： 
f = — 2(1 — 6)lnA; - X\f). 

由样本值计算这三个总体的样本协方差阵(见例 3. 4. 1)，以及所有 
样本的总离差阵: T (见例 3. 3. 2). 进一步计算可得 

^ r~ k T = = I - 12198 X 10 9 , |5,| = 791325317, 

|5 2 | = 145821806, |5 3 | = 1.08116 X 10 9 , 

M 5 =- 2 lnA 5 * = 46. 1067, b = 0. 06433, / = 28, 

^ = (1 - b ) M s = 43.1408. 

对给定 «=0. 05,利用统计软件(如 SAS 系统），首先计 算户值 
(此时检验统计量^〜 ^(28)) : 

p = > 43. 1408} = 0. 03373. 

因 p = 0. 03373<0. 05 = «，故否定//。，这表明三个组的均值向量和 
协方差阵之间有显著的差异.在这种情况下，可能犯第一类错误，且 
犯第一类错误的概率为 0. 05. 


§ 3. 5独立性检验 

设总体 X 〜 A ^(^，2) ，将 X 剖分为々个子向量，而 / z 和2也相 
应剖分为 

X = i M = : = » -S = : : :, 

. x a > J ^ Lz 41 - 

其中/> = 户 i + …+ />*，且知维子向量 X u 、〜 N Pi ( ju w ， 2 a ) 0 = 1， 
…，々).若 A 个随机子向量相互独立，则可把 f 维(高维)随机向量的 
问题化为 A 个低维随机向量的问题来处理，这在处理多元统计分析 
的许多问题中将带来极大的方便. 

在第二章中，我们已介绍过若 X ⑴ ，…， X ( t ) 相互独立@ 2,,.=0 
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(対 一切 *•#_/•)• 因此检验又 (1> ，…，又 (4> 是否相互独立的问题等价于 
检驗对任意两个子向量，协方差阵是否等于 0( 对一切 i 雄 
在正态总体下，独立性检验可化为检验： 

Hot — 0( —切 2 . 尹 j ) ， H i： 7^ o , 至少有一对 Z ’ # _7_. 

设…， 》，”>/>) 为来自总体 X 的随机样本.将 x u) , 
样本均值向量又和样本离差阵 

>1= i ； (x (J) -x)(x (J> -xy 


賴为 


:•:，X =: 

篇 >_U b 

「An … 


La*, … a u \ pi 

应用似然比原理，在 H 。 成立时， 〜 N〆，D G = l ， …山 
«=1，…，《)，且相互独立，故样本的似然函数为 

k 

1=1 

当 时，达最大.所以似然比统计量 

表示式的分子为 

身 A 一 n /2 

max L(>,2)= JT (2 兀厂咪 /2 — e —” 以 2 

‘声， 2 i ■广0 n 
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博克斯 ( Box ) 证明了，在 H 。 成立下当 ” ⑴时， 

- b\nV - xHf ), 

其中 

„ p 3 - 

b = n -- — ， 

2 3(,- E^) 

i r * ■ 

/ = y Pip + 1) — ^jPaipa + 1) • 

例 3. 5.1 试检验例 3. 2.1 女性汗液数据中随机向量 X 的三个 
分量是否相互独立 ( a = 0. 05). 

解记随机向量 X 〜 iV 3 (户，2)，且记 
2= (^, p 3 X 3* 检验 

开。：泛12 = 0， "13 = 0，江23 = 0， H 1 : ^12 >^13 ,( ^23不全为 0. 

取检验统计量为 

^ = - ftln . 

XI I I 

1 = 1 

当 X 的三个分量相互独立，且样本容量 n 很大时， f 近似于 #(/)• 
由表 3. 1的样本值计算样本离差阵 A ， 可得： 

' 54. 708 " 

A == 190.190 3795.98 . 

-- 34. 372 - 107. 16 68.926- 

此例中 n = 20 jp = 3, p l — p 2 = p 3 — l ^= : =3. 进一步计算可得： 
b = 17.166667, /= 3， 

1^1 = _8108729_ 

V= ^ = 54. 708 X 3795. 98 X 68. 926 

TTlAvl 

r = l 


8108729 

14313791 


= 0. 5665, 


$ =- blnV = 17. 1667 X ln (0. 5665) = 9. 7555. 

对给定显著性水平 《=0. 05, 用统计软件 SAS 系统计算时，通过计算 


声值进行检验： 

^ p = P {^ 9. 7555} = 0. 02076. 

g , = 0. 02076<0. 05 = a ， 故否定 Ha ， 即随机向量的三个分量不相 
互 独立. 在这种情况下，可能犯第一类错误，且犯第一类错误的概率 
为 0. 05. 


§ 3.6 正态性检验 

i : 

:!： - 在均值向量和协方差阵的检验中，以及以后将介绍的一些统计 
方法中都是假定样本来自/>元正态 总体. 所作统计推断的结论是否 
斑确，在某种意义上取决于实际总体与正态总体接近的程度如何？因 
此建立一些方法来检验多元观测数据与多元正态数据的差异是否显 
趣是十分必要的. 

,,设 • X u ) = ( X al ，…，叉#/ ( a = l ， …， n ) 是来自 /) 元总体 _ X ■的随 
机样本，试问总体 X 是否服从 N p ( M ,2) 分布? 

若总体乂=(兄，…,〜 iV〆 卢,2)，利用多元正态分布的一 
些性质可知以下结论 (记" =(内，… W ，2= (< r , 7 ) #x# )： 

结论 1每个分量 X ,〜 iV ( rt ， cr ,,) G = l ， …， />); 

:.结论 2任意两个分量(兄， X ,)〜二元正态 分布； 

结论3设 Z =( A ， …， y 为任给的维常向量，令则 
$ 〜爪 （/>，/， 习）； 

结论4 令 7=( X — 则7〜; C 2 (/>); 

结论 S 正态随机向量 X 的概率密度等高线为椭球. 

^若总体 X 为多元正态总体，必具有以上所列的几条性质.如果 
X 具有以上这些性质，也不一定能得出 X 为 p 元正态 分布. 但如果 
经过检验，比如发现某个分量兄与正态分布有显著差异，即可得出 
P 元总体 X 与 P 元正态分布也有显著差异.利用以上性质，要来构 
造出好的满意的多元正态的整体性检验是十分困难的.在实际应用 
中如果经过从多方面得到的检验结果与正态分布均无显著性差异， 
也就认为该总体 X 与 p 元正态无显著差异. 
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关于多元数据的正态性检验问题，常转化为多个一元或二元数 
据的正态性检验，而一元数据的正态性检验已有一些方法;或者先求 
X 分量的线性组合，化为一元数据的正态性检验等.这些方法虽不 
是严格的，但一元或二元数据是正态的，而多元非正态的病态数据在 
实际应用中并不常见. 


#(//， 〆 )）的分布函数在点上的值，即随机事件的概率 
〈 Probability) 值，而 />,. 是由经验分布函数 F „ Cr ) 得到的样本分布函 
數在点 上的值，故称此散布图为 P - P 图，利用此图得到的检验法 
称为 P - P 图检验法. 

(7) “3,原则检 验法： 如果总体 X 〜根据 “3< r ” 原则， 

可知 


一、 一维边缘分布的正态性检验 

设/>维随机向量义=(又 1 ，*"，；^)'，检验分量兄〜#( / /,，<7, 2 ) 
0 = 1，…， />) .若要把/>元正态性检验化为个一元数据的正态性 
检验，常用的检验方法有以下几种(见参考文献[4]，[7]). 

(1) : t 2 检 验法： 这是适用于连续型或离散型随机变量分布的拟 
合优度检验方法，也称为皮尔逊 ( Pearson ) Z 2 检验法. 

(2) 科尔莫戈罗夫 ( Kolmogorov ) 检 验法： 这是适用于连续型分 
布的拟合优度检验方法，当然也适用于正态性检验. 

以下几种方法是仅适用于正态分布的检验法. 

(3) 偏峰检验法. 

(4) W ( Wilks ) 检验和 D 检验. 

(5) Q - Q ( Quantile - Quantile ) 图检验法. 

(6) P - P ( Probability - Probability ) 图检 验法： 这是与 Q-Q 图检 
验法类似的图示检验法. Q - Q 图检验法绘制散点 (?,， x ；：,) 的散布图， 
其中为正态总体的/>,分位数， 


Pi 


0. 5 


( z . = 1，… , n ) ； 


工二为样本的 A 分位数.如果总体 X 为一元正态总体，这些散点应散 
布在一条直线上. 

另外，我们还可以绘制另一对数 据点： ( p ,, FU ： n )) 0 = 1,-， 
n ) 的散布图，记 F „( •) 为经验分布函数.因为 

… 一4 


Pi = 〜 F ( x ( *,) = ^ — 

' O / 

故这些散点也应散布在一直线上.这里 FOL ) 是正态总体 XUC ， 


si'v* 

托:_‘， 


P{fi — ka <. X <. ka ) 


0. 683, 当々=1时， 
0.954， 当是 = 2 时， 
0. 997, 当是 = 3 时. 


# k (1 )， X ( 2 , ，… ， X ( n ) 是来自总体 X 的样本 ( 假设样本容量 n 很大）， 
又 X 为正态分布，则样品点落入区域<>_&，户+如)的比例厶与以 
上列出的 概率九 应是相差不多的.利用大数定律可知， A 近似为正 
态分布，由此得出的检验法 如下： 

由样本值： w ) 首先计算样本均值$和样本标准差 s ， 
蓍备 班计落入区域 (5 — sj + s ) 或 (5—2 sJ + 2 s ) 的样品点个数，并 
特藤占 样品总数《的比例 A 或 A ， 如果 


| A - 0. 683 1 > 3 . 


I A ~ 0. 954| > 3, 


, 0. 683 X 0. 317 = I . 396 
« — 心 ’ 


10. 954 X 0.046 0.628 


味 … . 

总体 X 与正态总体有偏离，当 A 或奐都较小时，表示总体 X 
卜# 比正态 分布有较重的尾部. 

f 和统计量检 验法： 这是由 SAS 软件系统提供的检验 
的方 法主要是经验分布拟合优度检验法，由样本计算得到的 
函数& U ) 可作为总体分布函数 FU ) 的估计，所以考虑用 
原假设指定的分布函数 F 8 U ) 间的差异来检验原假设.以下 
计量都是用 以度量指定分布函数 FoU ) 与经验分布函数 
两 个函数 之间的 差异： 

^ 尔莫 戈罗夫-斯米尔诺夫 (Smirnov) 统 计量： 
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D = Sup | F „( x ) — F 0 ( x ) |. 

x 

Anderson-Darling 统计量： 

A 2 = n ( F n ( x ) — F 0 ( j ：)) 2 [ F 0 ( j :)(1 — F 0 (^))] -1 dF 0 ( a :). 

— CO 

Cramer-von Mises 统计量： 

W 2 = n \ ( F n ( x ) — F 0 ( x )) 2 dF 0 ( x ). 

J — oo 

当原假设成立时，上面三个统计量应取较小的值.这三个统计量取很 
大数值时是极端情况，故度量这三个统计量取极端情况的相应的 
值若小于给定的显著性水平《，则有足够证据否定正态性假定（见参 
考文献[3]，35〜 39). 

二、二元数据的正态 性检验 


可对 二元观测数据的正态性进行检验，具体步骤请看下面例 

子. 

.例 3. 6.1 考査由第一章表 1.1 中给出的12名学生的数学成 

ia 4 ) 和物理成绩 ( D 所组成的二维向 n ， x 5 ) '的观测数据，试 

问这 批二元数据可否认为是来自二元正态总体. 

解首先由二元数据计算样本均值和样本协方 差阵： 

X = (80. 7500,81. 9167)，， 

1 1「4710. 2500 1 

~ n - \ 11 L 3995. 7500 5288. 9167- 

_ '428. 2046 ' 

.363. 2500 480.8106」’ 

,「 0. 006503 I 

5 -1 = 

' L — 0.004913 0. 005792-• 


设 XMXuXy ’ xap 维随机向量， X 的任意两个分量 
的 n 次观测数据记为 X W) = ( X ;1 ， X , 2 )' 0 = 1, -, w ). 下面介绍检验 
二元观测数据是否来自二元正态分布的方法. 

1. 等 概椭圆 检验法 

若二维随机向量叉=(尤,：^〜 JV 2 (>,2), 则 X 的概率密度函 
数等高线 

f{x lf x 2 ) = a «=> (X — — ft) = b 2 , 

上式右边是中心在(内，托）由 — — 决定的椭圆. 

由本章§ 3. 1中所介绍的知识可知 

D 2 = (X - 〜 X 2 (2). 

对给定外6(0，1)，则存在 d 。， 使 

P{D 2 ^d 0 } =p 0 . 


接着计 算第〗 个观测点（学生）的两门课程成绩到中心点 Z = 
( X «， X S )，= (80. 7500,81. 9167) ，的 (第五章称这样定义的 A 2 为 

马氏距离）： 

D ] = ( X W) - XyS ~\ X w - X ) U = 1,2, -,12). 

其结果 分别为 

0.8832, 0.7787， 0. 6965, 0. 7891, 2. 1882, 2. 3849， 

0. 8768, 2.0337, 0.2691, 5.0465, 0. 7892, 5.2641. 

由上可知 ，马氏距离 Df < l . 386的个数为7个,占样品总数的比例为 
58. 33%.这与 0. 5相差不多，且因样本容量« = 12较小，因此可以认 
为所 得结果不能拒绝数据是来自二元正态性的假设. 

这个检验法显然比较粗糙，下面我们将介绍的一种判断数据联 
合正态性原则的比较正规的方法,就是对 n 个观测点的 A 2 (/ = 1, 
…， n ) 作 Z 2 图检验. 


比如取/>。= 1/2,由统计软件计算或者查有关临界值表，可得心= 
1. 386;当 /> 0 =0. 25时 d o =0. 575; />。=0. 75时 d 0 =2. 773，….而 
P{(X - fiy 2 ~\X 一 W < 1_ 386} = 0.5 
表示样品点 X 0) 落入由 1. 386指定的椭圆内的概率为 1/2. 利用这一 


2. 二元数据的; f 2 图 检验法 

因二元数据的: f 2 图检验法与/>元数据的 Z 2 图检验法其原理完 

考賴同，故关于此检验方法的介绍请参阅下面/>元数据的; f 2 图检验 

方法. 
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三、/>元数据的正态性检验 

设 X( 0 ) = (W 印) , («=1，…， 《) 为来自/>元总体X的随 
机样本.检验 

H ot X 〜 N 知,幻 ，//,: X 不服从 A^("，2). 

1. : f 2 统计置的 Q - Q 图检验法(或 P - P 图检验法） 

这是由正态分布的性质的结论4构造的检验法•在//。下，将样 
品X到总体中心//的马氏距离 D 2 (X，/0 记为 D 2 , 则有 

D 2 = (X — S~ l (X — //) ~ X 2 ip )- 

以下构造的检验方法就是检验统计量£» 2 是否有 D 2 〜;^(户)成立.直 
观的想 法是： 由样品 U 十算坎(>=1，…， w ), 对£)〗 排序： 

伏” < 切 2> < …< D \ n) . 

统计量 D 2 的经验分布函数取为 

F n { D \ n ) = ’ 5 ^ L pi ^ H { D \ t ) \ p ), 

其中 I/O 表示 Z 2 (/>) 的分布函数在杌,的值. 

设;^分布的 A 分位数为#，显然义 2 满足： H ( l 2 | 户）=/>,，即;^ 
分布的 A 分位数尤 2 =//^(/>,|/>).又由经验分布得到样本的 A 分位 
数/4=/^(九).若//卜⑷〜/^:^应有 

D 2 (l> ^ XI 

绘制点 CDL，；^ 2 ) 的散布图，当X为正态总体时，这些点应散布在一 
条直线上.这种检验法其实就是; f 2 分布的 Q-Q 图检验法. 

类似地，也可以绘制点 I/O) 的散布图，当X为正态 
总体时，这些点也应散布在一条直 线上. 这种检验法其实就是; t 2 分 
布(有时表示为“卡方分布”)的 P-P 图检验法. 

具体检验步骤如下： 

(1) 由”个维样品点 X w («=l， …，”)计算样本均值 x 和样 
本协方差阵 
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s = n _ 2 2 (x( a ) _ X) (X( a) — xy • 

«=i 

: (2) 计算样品点叉⑴到又的马氏距离： 

^ d] = (x( t ) — xys 1 (X it) — X )(广 = 1，…， w ). 

^ (3) 对马氏距离 A 2 按从小到大的次序 排序： 

^(1) ^ -^(2) ^ ••• ^ D 2 in) . 

(4) 计算九=^~^(«=1，2,…，幻及石 2 ,其中;满足： 

朗 H = p , (或计算//(£>〖,〉 I 户）的值). 

(5) 以马氏距离为横坐标，; C 2 分位数为纵坐标作平面坐标系，用 
”个点 04， f ) 绘制散布图，即得到 : f 2 分布的 Q - Q 图； 或者用另《 
个点 I / O ) 绘制散布图，即得; t ： 2 分布的 P - P 图. 

考察这 ”个点 是否散布在一条通过原点,斜率为1的直线 
最，接受数据来自/>元正态总体的 假设； 否则拒绝正态性假 
设. 

2. 主成分检验法 

设 X «)=( 兄1，兄2，...，兄，)’ G = l ，...，《) 为来自户元总体 X = 
(灰 i ， …， X ,)'的观测数据(样本），检验 
辑與: H 0: X 〜 N p ( ju , S ), H 1： X 不服从 NS \ 

设样本协方差阵 S 的特征值为相应的特征 
向量为 / i ， Z 2 , … ，/，， 记/,= ( 7 1 ( ， 4 ,… ，〜) ’ •令 
岛乙= LX ! + / 2< X 2 + …+0 = 1,2,…，户）， 

-新变量&，…石是；^ ，…， X p 的线性组合.则可以 证明： &，…， 
Z * 是相互独立的;/>元观测数据提供的信息大部分可由前几个新变 
® 所提供 • 这时元数据的正态性检验可化为几个相互独立的新变 
量的一元数据的正态性检验.这些新变量在第七章中被称为主成分. 
故此检验法称为主成分检验法. 

: , 如果正态性假设不能成立，一般应考虑对数据进行变换，使非正 
&数据更接近正态，然后对变换后的数据进行统计分析.有关变换的 
方法请见参考文献[5]、 [6] 或 [7]. 
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习題三 103 


习题三 


3-1 设 X~AT„(//，<r 2 八）， A 为” 阶对称幂等矩阵，且 rank(A) 
=r (r<«). 证明 士〜 Z 2 (rJ)， 其中及 

3-2 设X〜 NAm ，<J 2 U， 为 / j 阶对称矩阵.若 AB=C>， 证 
明 XMX 与 X'BX 相互独立. 

3-3 设 X〜 NtXfx，2)，2>Q，A 和为户阶对称矩阵，试证明 
(X - mYMX - //) 与（X - fx)B{X - fi ) 相互独立 


EAEBS = Op Xp . 

3-4 试证明威沙特分布的性质4和霍特林: T 2 分布的性质 5 . 
3-5 对单个/>元正态总体乂(>，2)均值向量的检验问题，试 
用 似然比原理导出检验 fz=/x o a^So 已知）的似然比统计量及 
分布. 

3-6 (均值向量的各分量间结构关系的检验)设总体 


X - (2> 0), 


X( a )(a=l ，…， n) («〉/>)为来自/>兀正态总体X 的样本，记 (/ A ， 
C 为 kXp 常数矩阵(是</>)， rank(C)=々，r 为已知走维向 
量.试给出检验 H a: Cfi^r 的检验统计量及分布 • 

3-7 设总体 X 〜(2>0)， X ( «>(a=l， …，”) (n>p) 
为来自/»元正态总体X的样本，样本均值为X，样本离差阵为 A 记 
(I — (//[ ，…， &)'. 为检验//。:户1 = 卢2 = … = 户 />， Hi : 户1 ，户2，…，6至 
少有一对不相等，令 


C = 


1 


- 1 
0 

0 


0 0 " 

一 1 0 

• • 

• • 

• • 

0 * • • "1 

丄」（户 一1> X 户 


则上面的假设等价于 

Hq ： C{J- — 0/>— 1 ， H \ : Cft ^ 0^—i > 


籌 中 o a h 为/ >一1 维零向量.试求检验 H。 的似然比统计量和分布. 
AiiV 3-8 假定人 体尺寸有这样的一般 规律： 身高 (XO ，胸围(义 2 )和 
上 半脅围 (X 3 ) 的平均尺寸比例是 6 : 4 : 1.假设X ⑷ 0=1，… ，”) 为 
来自总体 叉=(兄，尤 2 ，义 3 )'的随机样本，并设X〜 iV 3 ( A ，Z). 试利用 
表 3. 4中男婴这一组数据来检验其身高、胸围和上半臂围这三个尺 
寸(变量) 是否符合这一规律(写出假设只。，并导出检验统计量). 


表 3. 4 某地区农村两周岁嬰儿的体格测置数据 


— _性别 

身高 (XO 

胸围 ( x 2 ) 

上半臂围 ( X 3 ) 

男 

78 

60.6 

16.5 

—一男 

76 

58. 1 

12.5 

男 

92 

63. 2 

14. 5 

男 

81 

59.0 

14.0 

男 

81 

60.8 

15.5 

男 

84 

59. 5 

14.0 

女 

80 

58.4 

14.0 

女 

75 

59.2 

15.0 

女 

78 

60.3 

15.0 

女 

75 

57.4 

13.0 

女 

79 

59.5 

14. 0 

女 

78 

58. 1 

14. 5 

女 

75 

58.0 

12.5 

女 

64 

55.5 

11.0 

女 

80 

59.2 

12.5 


3-9 对单个元正态总体 7 V〆 ;/，！：) 协方差阵的检验问题，试 
用似然比 原理导出检验 H 。： 2=2。的似然比统计量及分布. 

3-10 对两个 > 元正态总体和％(// 2) ，2)均值向 

量的检验问题，试用似然比原理导出检验//。： 的似然比统 

计量及分布. 

3-11 表 3 . 4 给出15名两周岁婴儿的身高(兄），胸围 ( X 2 ) 和 
上半臂围 ( X 3 ) 的测量数据.假设男婴的测量数据 X (<0 («=1,...，6) 为 
来自总体 ^3(//”，：)的随机 样本; 女婴的测量数据 y (o) („=!,. .. (9) 
为来自总体 iV 3 (// 2) ，_ S ) 的随机样本.试利用表 3. 4中的数据检验 
/* (1) = At «>( a==0 05 ) 
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3-12 地质勘探中，在 A ， B ， C 三个地区采集了一些岩石，测量 
其部分化学成分，其数据见表 3. 5. 假定这三个地区岩石的成分遵从 
JV 3 (" ot ，2,.) ( t ' = l ,2,3) 0=0.05). 

(1) 检验//。: 芝1，為，各不全等; 

(2) 检验仏:，关，; 

(3) 检验 H 0: ，=戶 (2> = 〆 3 〉，//"存在，使 〆 ' V〆 ； 

(4) 检验三种化学成分相互独立. 


表 3. S 岩石部分化学成分数据 



Si 0 2 

FeO 



47. 22 

5.06 

0. 10 


47.45 

4. 35 

0.15 

A 地区 

47.52 

6.85 

0. 12 


47. 86 

4. 19 

0.17 


47.31 

7. 57 

0. 18 


54.33 

6.22 

0.12 

B 地区 

56. 17 

3.31 

0.15 

54. 40 

2.43 

0. 22 


52.62 

5. 92 

0.12 


43. 12 

10. 33 

0. 05 

C 地区 

42.05 

9. 67 

0. 08 

42.50 

9. 62 



40.77 

9.68 

0.04 


3-13 对表 3. 3给出的三组观测数据分别检验是否来自 4 元正 
态分布. 

(1) 对每个分量检验是否是一元正态？ 

(2) 利用:^图检验法对三组观测数据分别检验是否来自 4 元 
正态分布. 


第四章回归分析 


回归分析方法是多元统计分析的各种方法中应用最广泛的一 
种. 它是处理多个变量间相互依赖关系的一种数理统计方法.变量间 
的相互依赖关系在实际问题中是大量存在的，回归分析是研究这种 
相互依赖关系的有效数学方法. 

回归分析方法是在众多相关的变量中，根据实际问题的要求，考 
!査其中一个或几个变量与其余变量的依赖关系.如果只要考查某一 
个变量(常称为响应变量、因变量或指标)与其余多个变量 (称 为自变 
* 晨或因素）的相互依赖 关系. 我们称为多元回归 问题. 如果要同时考 
査/>个因变量与 m 个自变量的相互依赖关系，我们称为多因变置的 
，多元回归问題(或简称为多对多回归). 

在一元统计分析中讨论的多元回归是只考虑一个因变量的回归 
何题.多元统计分析中讨论的回归问题是指有多个因变量的回归问 
题，它自然把一元统计中的回归作为 特例. 因多元回归问题在实际应 
用中更为广泛，它涉及的统计推断结论能够推广到多因变量的多元 
回归的问题中.本章首先不加证明地介绍经典多元线性回归、逐步回 
归的一些结论，然后讨论多因变量的多元线性回归和双重筛选逐步 
阃归. 


:- §4.1 经典多元线性回归 

J 多元回归分析是研究因变量 y 与 WZ 个自变量〜的 
相 关关系，而且总是假设因变量 y 为随机变量，而 A ， X 2 ， … ，； 为一 

般 变量. 
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§ 4. 1经典多元线性回归 


109 


=丄 (T 一 Cb)'(.Y - Cb ) = iQ ( b ). 
n n 

但因#不是 / 的无偏估计量，通常取 


作为/的估计量，它是/的无偏估计量. 

定理 4. 1. 2设 rank ( C ) = m + l <” ，则 E (/)= ff 2 . 

5. 参数函数的估计 

在回归分析中，求出参数 P 的最小二乘估计 6 并不是我们的目 
的.我 a 的目的是要估计 y ， 而 y 是/3的线性 函数： 

r = A) + + …+ ~ (1 > X \ ***" ，工 m)P = U ' ^ t 

即估计参数 /? 的线性函数 《^. 

很自然地我们用《' 6 作为的 估计. 因6是 P 的最大似然估计 
量，故也是 《'/? 的最大似然估计量，它具有最大似然估计量的一 
切优良性.特别要强调的，是 《'/? 的最小方差线性无偏估计. 

二、 回!13方程和回归系数的显著性检验 

在实际问题中，我们事先并不能判定因变量 y 与自变量 a ，^， 
-, x m 之间确有线性关系.在求出回归系数的估计之前，回归模型 
(4.1.2；) 只是一种假定，尽管这种假定常常不是没有根据的，但在求 
出线性回归方程后，对 y 与 , x m 之间是否有线性关系还需 
进行统计检验，以给出肯定或者否定的结论. 

我们假定 E<T) = A) + Aa + … +/^C„， 如果 Y 与 X l , x i ,-, x m 
之间均无线性相关关系，则 (4. 1.2) 模型中^心=1，2, …， m) 的系数 
A 应均为 o. 故检验 y 与 x 1； x 2 ,-,x m 是否线性相关的问题就等价 
于检验假设 

Ho : A = 卢2 = … = An = 0’ 

为了选择合适的检验统计量，我们首先介绍平方和分解 公式. 

1. 平方和分解公式 

引理 4. 1. 1对任给定的观测数据阵 




x n 

尤 12 

… X \m 

y 2 

工 21 

X 2Z 

… X lm 


• 

. 

• 

• 

• 

• 

： 

~y n 

及 1 

及 2 

… 工 nm - 


恒有公式： 

2 (% — 50 2 = S (乂 一戈 ) 2 + 2 ( 兑一刃 2 , (4. 1.4) 

,= 1 *=1 (=l 

其中 

y< = ^0 + ^\x n + 先 x f2 + … + P m x im (i = 1 ， 2,…， 《). 


冷: 




( C ' O ^ C'Y 


是# 的最 小二乘估计.公式 ( 4 .1. 4 )称 为平方和分解公式. 

平方和分解公式 （ 4 .1. 4 )等号的左边(乂―3；) 2 体现了 y 的 

观测值: v”％， …，: y„ 总波动大小，称为 总偏差平方和 ，记作心（或 

TSS). ( 4 . 1. 4 )式等号右边的第二项^ 夕) 2 体现了 ”个估计值 

» = 1 

: PM 2 , …，的波动大小，它是由于7与自变量： EpA ，…，〜之间确 
有线性关系并通过 x iy x 2 ,-, x m 的变化而引起，我们称它为 回归平 


方和 ，记为 G (或 MSS)； (4. 1.4) 式等号右边第一项$； (^, — 5),)2 = 

«=1 

n 

S g ' 2 称为残差平方和，记为 Q (或 ESS). 在模型 (4. 1. 2) 假定下，即 


E(T) =乳 + 成 Xl + …+ p m x m , 

Q 是由于随机误差引起的.实际上，模型 (4. 1. 2) 只是一种假定，自变 
»x 1 ，x 2 ，》.，〜*y 的关系除了线性关系外，可能还有非线性的关 
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系 . Q 是除了々，:^，…，对 Y 的线性关系之外的一切其他因素(包 
括^，^，…对 y 的非线性关系及随机误差）引起的，故 Q 也称 
为剩余平方和•利用以上记号， （ 4 . i . 4 ) 式可简 写为： 

Z ” = Q + t / 或 TSS = ESS + MSS . (4.1.5) 

2 . 回归方程的显著性检验(或称相关性检验） 

由最小二乘准则求回归系数的计算过程中，并不一定知道 y 与 
自变量〜，工 2 ，…， 〜是 否有线性关系•如果不存在线性关系，那么得 
到的回归方程是毫无意义的.在一元回归中，若的=0,则一般地说， 
y 并没有随 a 的变化而线性的 变化. 因此对回归方程的显著性检验 
就是检验以下假设是否 成立： 

H 0 : A = A =… = l^m = 0. (4. 1. 6) 

由平方和分解公式及 MSS 和 ESS 的意义，若 MSS (回归平方和 
或模型平方和）比 ESS (残差平方和或误差平方和）大得多，则的 
总偏差 TSS 主要由 > r ,. G _ = l ，… ， w ) 的变化引起的，即所考察的这些 
自变量对 y 的影响是显著的，也就是假设 (4. 1. 6) 不成立 • 利用比值 
MSS/ESS 就可以构造检验假设 (4.1. 6) 的检验统计量. 

定理 4. 1.3 在模型 (4.1.3) 下有 

(1) p 〜 u’Acm 

( 2 ) 

(3) 冷与 Q 相互 独立； 

(4) Ho ： 成立时，^ = 

利用定理 4.1. 3,为检验 H 。， 构造的检验统计量为 

_ U/m _ MSS/w 

Q /(« — w — 1) ESS/(n — m — 1) 

_ MMS (模型均方) 

— MSE (均方误差 r 

在 H 。 成立时，检验统计量 F 〜 F ( m，n — w — 1) ，其中 m 和 n — m — \ 
分别称为模型的自由度和误差的自由度 • 

利用 n 组观测数据，计算检验统计量 F 的值(记为/。)及显著性 
概率值），值是指在//。下，利用 F 的分布规律，计算出检验统 
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计量 F 大于等于/。的概率.若得出的々值很小（小于显著性水平 
«)，依统计思想，小概率事件在一次实践中一般不会发生.如果发生 
小概 率事件，将否定前提假定// 9; 否则//。相容. 

3. 正规方程的等价形式及 f ； 的计算公式 

回归模型 (4. 1.1) 可以改写为 

[yi — y = ^o + 工 ,1 — 々 ）+ ••• + K 工 im — 王仿 ）+ e: 

(i = 1，2,…， M )， 

le = (€!，£ 2 ，•••，£„)' 〜 

(4.1.7) 

m 

它与原模型 (4.1.1) 没有本质差别，只不过 yS «=/?；- X ；/?, x ,.+5；. 

f = l 

模型 (4. 1. 7) 的特点是对观测数据(化，: r /2 ，…，；„，: y ,) (/=1，2, 
”•,《) 做了中心化处理.下面将说明在模型 (4. 1. 7) 下得到的正规方 
程 的形式.记 

工11 — 王1 尤12 —无2 … ^lm — 

工21 _ 王1 工22 —无2 … ^2 m — 


X - 


B 



L^»i - 

•无 i 

^ n 2 



3^1 - 

- y ~ 

A 

， ？= 

yz - 

- y 



. y n - 

- y . 


心」 


， C= (1„ 丨又 ）， p = 


则模型 a 1.7) 的矩阵形式为 

IY = Cfif + e 9 

U 〜 iV n (0,< r 2 /„), 

正规方 程为： C f C ^= CY.R 


| ~ ~ .铲， . 

l' n ln 1 IX ' 

def 

r n o 1Xm i 

I C ' c= (1„ : Xy(i n 1 X )= 





- X ， l „ X f X - 


-Omxi L j 
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L ^ x f x = a tJ ) mXm9 

n 

lij = 2 ( 工 ** 一 — ^«) ^ X kj ~ 力 ） ，j = l ， 2 ， “. ， m). 

*=i 

而 



l： 

Y 

def 

roi 

c 1 y= ( 1 „: Xy y= 

-X ， 

Y- 


•l- 


n 

其中 l=Q ly ,l iy , —,l my )', liy^^ (x*, —x,)(3<* —>；). 于是正规方程 

*=1 

可 写为： 



O 叫 p9 0 ” 

L - - ^ - 



由此可得出#〖=0,故正规方程的另一等价形 式为: 

LB — ly 


(4.1.8) 


其中 L=X l X, l = X'Y. 方程 (4. 1. 8) 是 m 元线性方程组，解之得£ 
的最小二乘估计 为：左 =ZTV， 且云 〜 NJiB / L ]). 

数据中心化后的线性回归模型 (4.1. 7) 可表为 


j?= XB + e, 

U 〜 iV n (0,<T 2 /„). 


(4.1. 9) 


因为 t/= (Y-^l»> ， 汴 一 刃„)，在模型 (4. 1. 9) 下 (f — 51J =XB ，所 
以回归平方和 f/ 有以下计算 公式： 

U= (XB)'XB = B'LB = B'l 


= P\!-ly + 十… + 3 

利用平方和分解公式，还可得残差平方和的计算公 式为: 

Q = lyy — U. 


4. 回归系数的显著性检验 

对回归方程进行显著性检验，若否定 H。， 仅表示 A，A， …，化 
不全为0,但并不排除有某个尽为0.若/3, = 0,说明自变量 A 对因变 
量 Y 的影响不明显，应从回归模型中删除.因此对回归系数/3,0 = 1, 
2,…，是否为0,进行逐个检验是很必要的，即检验以下的 假设： 
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■^0° : A = 0 (i = — (4.1.10) 

为构造检验以上假设的检验统计量，我们引进偏回归平方和的概念. 
它是刻画某个自变量对 Y 作用大小的统计量. 

定义 4 .1.2设 f / 为: r, ，…，:^对7的回归平 方和； UU ) 为去 
掉工，后余下的 m — 1个自变量对 y 的回归平方和.则称 = [/ — 
f/(/)( 或 P,=CKO-Q) 为变量 々的偏 回归平 方和. 

Pi 表示去掉自变量4后回归平方和减少(或残差平方和增加） 
的数值，由定义可知，尸,这个数值大，说明 A 重要，这个数值小，说 
明X,.不重要. 

可以证明尸,的计算公式为 

Pi = P 2 i / V ' (?. = 1，2,…， w)， （4.1.11) 

其中 r 为 L- 1 的第/个对角元素，而 l =5' x ， x 是中心化的数据 
阵， 检验//。： /?, = 0 (〗=1，2,…， 7W) 的检验统计量选为 


Fi = 


P t 

Q/ (n — m — 1) 


或 — _ 

V Q /{n — m — 1) 


已知 Q/V 〜 —1) ，而 Pi = 合] / V '• 又已知 


所以 


B = (U 2 ， .“ ， 九) ， 〜 iV”CB ， L-V )， 


Nip .^ n . 

在//^成立时^ ? 〜〜(0，1)，即^〜/(1)，且与0相互独立，所 
以 


Fi = 


Pi 

Q/{n — w — 1) 


〜 F(1 ，n — m — 


1)， 


或 


^/ V ¥ 


V Q/ (n 


1) 


tin — m — 


给定显著性水平由样本观测数据计算 Q、P, 及检验统计量的值 
(记为/,)，并计算显著性概率值 (户值）： / > = P{F,>/,.}. 若 p < a ， 否 
定 H。， 即认为: c ,. 对 Y 的作用是显著的 ( X , 在回归方程中是显著 的）； 
否则//。相容. 
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5. 建立“最优”回归方程 

所谓“最优”回归方程是指包含所有在显著性水平《下对 y 作 
用显著的变量，而不包含在显著性水平《下对 Y 作用不显著的变量 
的回归方程. 

经对 m 个变量逐个做检验后，若 m 个变量在给定的显著性水平 
«下对 y 作用都是显著的，即认为所得方程是“最优”回归方程.若有 
不显著变量，则每次只能剔除一个，然后由余下的变量和 y 再做回 
归，然后再逐个检验，每次只许剔除一个最不重要的变量.重复以上 
步骤，直至方程中的变量都是重要的为止•这时得到的方程即为“最 
优”回归方程.利用此方程可对生产过程作预报或进行控制 • 

例 4. 1. 1( 水泥数据） 设某种水泥在 癡固时 所释放的热量 7 
(卡/克)与水泥中下列四种化学成分 有关： 

xi 3CaO • A1 z 0 3 的成分（％); 

x 2 — 一 3CaO • Si0 2 的成分 （％); 

工 3 —— 4CaO • A1 2 0 3 - Fe 2 0 3 的成分 （％); 

— 2CaO • Si0 2 的成分 （％). 

共观测了 13组数据(见表 4.1). 试求出 F 与的回归方 
程，并对该回归方程和各个回归系数进行检验. 


表 4.1 水泥数据 


序号 

XI 

XI 

X3 


Y 

1 

7 

26 

6 

60 

78.5 

2 

1 

29 

15 

52 

74.3 

3 

11 

56 

8 

20 

104.3 

4 

11 

31 

8 

47 

87.6 

5 

7 

52 

6 

33 

95.9 

6 

11 

55 

9 

22 

109.2 

7 

3 

71 

17 

6 

102.7 

8 

1 

31 

22 

44 

72.5 

9 

2 

54 

18 

22 

93.1 

10 

21 

47 

4 

26 

115.9 

11 

1 

40 

23 

34 

83.8 

12 

11 

66 

9 

12 

113.3 

13 

10 

68 

8 

12 

109.4 
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解使用 SAS / STAT 软件中最常用的 REG 过程来完成经典 
多元线性回归分析中的估计和检验问题 . REG 过程产生的主要结果 

见输出 4.1.1. 




输出 4. 

11 REG 过程产生的主要输出结果 



建立水泥数据的多元线性回归植型 



Hodel: NQ0EL1 

Dopendent Variable: Y 

Analysis of Variance 



8ourca 

of Naan 

DF Squares Square 

F Value 

Prob>F 

Model 

Error 

C Total 

4 2667.89944 666.97486 

8 47.B63M 5.98295 

12 2715.76309 

111.479 

0.0001 

Root H8E 
Dep Mean 

C.U. 

2.44601 R-m^uare 

9S.4230S hdj R-sq 

2.56333 

0.9824 

0.9736 



ParaMtar EstInatas 



Variable DF 

Standard T for HO: 

EstiMtci Error Paraaetar-0 Prob > |T| 

INTEFCEP 1 

XI 1 

X2 1 

X3 | 

X4 t 

62M053B9 70.0709S92I 

1.551103 0.74476987 

0.510168 0.72378800 

0.101909 0.75470905 

■0.144061 0.7090520B 

0.891 

2.083 

0.705 

0.)35 

-0.203 

0.3991 

0.070B 

0.5009 

0.8959 

0.8441 


输出 4. 1. 1给出以下几方面 结果： 

(1) 回归 方程： 

它 =62. 4054 + 1. 5511^1 + 0. 5102 x 2 + 0.1019 x 3 —0. 1441 x 4 . 

(2) 回归方程显著性检验的结果：由该输出中方差分析 
(Analysis of Variance ) 表可得出，平方和分解式为： 

2715. 76308 = 2667. 89944 + 47. 86364； 

均方 误差为 MSE = 47. 86364/8 = 5. 98295, 它是模型中误差方差 
的估计 ;该表还给出检验统计量 F 值为 111. 479, p 值为 0. 0001， 这 
表示拟合的模型是高度显著的，该模型解释了这组数据总变差中的 
主要部分. 

(3) 回归系数显著性检验的 结果： 该输出中参数估计 
(Parameter Estimates ) 表不仅给出回归方程的系数，并给出检验 
仏):汉 = 0 ( z _ = 0， l ，“*，； n ) 的结果.见该表的最右边 一 列 “ Prob〉|T 
I ”(即显著性概率/ ) 值），若给定«=0. 05,常数项(或称截距项)和4 
个自变量的/»值均，这与回归方程高度显著产生矛盾.从后面的 
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讨论将看到此现象是因为4个自变量间存在较强的相关性.为了得 
到“最优”回归方程，应从方程中删除最不重要的自变量(如 A ， 因 A 
的/. = 0. 8959为最大），重新建立7与其余自变量的回归方程后再 
检验.我们将在§ 4. 2中介绍变量选择问题. 

(4) 有关的回归统 计量： 决定系数及 2 = 0. 9824( 或复相关系数 
/?= V 0. 9824)，标准差 a 的估计量 (Root MSE ) 为 2. 4460,回归平方 
和 f /=2667. 8994,残差平方和 Q =47. 8636. 

三、 预报与控制 

在模型 (4. 1. 3) 的假定下，由观测数据求得参数/?的估计值，从 
而得到回归 方程： 

t =及。+ + …+ 乂〜， (4.1.12) 

并经过检验，设以上方程就是“最优”回归 方程. 

1. 预测加 点的预报区间(区间估计） 

设给定点的观测值: y 。 是随机变量，它满 
足 

: Vo = A ) + + "■ + /^Xom + £ 0. 

但九未知.很自然地我们把 （ X M ，:^ 2 ,…， Xo „) 代入回归方程 
(4.1.12) 得到 y 的回归值(或称预报值） 

4。=冷。+ 冷 llfll + ••• + 白 m 工 Om . 

作为％的估计，它是％的一个最小方差线性无偏估计量. 

但由回归方程仅得出: V 。的点估计九并没有给出估计的精度. 
我们进一步来讨论 > 的区间估计问题.首先给出一条有关的定理. 

定理 4. 1. 4设给定点(1。 1 ，：1：。 2 ^“，：1： 01 „)处因变量'^的观测值 
为 yo 及样本 ()=1 ，2,…， n ) 满足 模型： 

yj = /?0 + 芦而 + …+ ^jm + e ； O = 1 ，2,…， 《) ， 

'：Vo — 1^0 + P\ x n + •" + + e 。， 

e „, e 0 ~ AKO ，^ 2 ), 且相互独立. 

则 

(1) 5\> = /3o + y3ix 0 i + … +/^iom = (l ， i 01 ， : r 02 ， … ，工加 ）/? = 
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乂冷是九的最小方差线性无偏估计量，且 

y 0 - N ^ yx '. CC ' Cr ^ o )； 

(2) 九一夕 。〜 AKO^a+xUe’e)- 1 ：!：。）; 

(3) 统计量 t 为 


_ yo-yo _ 

<tV \+x' 0 (.C'C)~ l x 0 


〜 ,（w — m — 1) 


其中 



利用以上定理，可得出％的预报区间. 

给定置信度1一《，选用定理 4. 1.4 给出的统计量£，因 <〜 Kw 
m —1) ,查《分布表得临界值匕，使 


{U I〈,《} ^ 1 — a > 


即 ^{13- o - i-ol <^Vl +4(^0-^ 0 } = 1 - a . 

为预报半径，则％的置信度为1一《的 
置信区间为[九一该区间以如为中心 d 为半径.若预报 
半径 d 小，则预报就精确.由 d 的定义可以 看出： 

(1) 若4小(即1 一 a 小），则 J 也小； 


(2) 因孑= 



，当 Q 小时 d 也小; 


(3) 利用分块求逆公式有 


x 0 ( C , C )^ 1 j ： 0 = (1,^ 01 , — ,^> 


+ X f L^ x X - X l L ^ 


+ (无1 — 工 01 ，…，无 w — x^Lxx 


X \ ^ ' 工01 
p^m 一 X Otn 


当样本容量 n 充分大， X ,— Xq .^0 (t = l ，2, … ， m ) 时 小. 在实际问 
题中，常近似地认为3/。_夕。〜 AKOj 2 )， 当 a =0. 05时，预报区间为 
[5^0—26 jo + Zd ]; 当 a =0. 01 时，预报区间为 [ S 。一 33，；。+ 36]. 


2. E (： y 。) 的预报区间 

以上给出单个％的预报区间，类似可以讨论 E ( y 。） 的预报区 






变量对因变量 y 的影响都是显著的；而不包含在方程中的变量对 y 
的影响是不显著的(可忽略).也就是从自变量集 Ui ，: r 2 ，… ， X „} 中选 
出适当 的子集，…，使得建立 y 与 Xi^x^ ，— , x i{ 
的回归方程就是这样的“最优”回归方程(或“最优”回归子集)•这就 
是回归变量的选择问题. 

1. 选择“最优”回归子集的方法 

在 SAS/STAT 软件的 REG 过程中，选择变量子集的方法有八 
种，可分为 三类： 

1) “最优”子集的变量筛选法 

该方法包括逐步回归法(逐步筛选法 ）( STEPWISE ) 、 向前引入 
法 ( FORWARD ) 和向后剔除法 ( BACKWARD ). 

向前引入法是从回归方程仅包含常数项开始，把自变量逐个引 
入回归方程.具体地说，先在个自变量中选择一个与因变量线性 
关系最密切的变量，记为 ' ，然后在剩余的 m — 1个自变量中，再选 
一个 ， 使得 ，: c , 2 }联合起来二元回归效果最好,第三步在剩下的 
m _2 个自变量中选择一个变量，使得 ，: r , 3 } 联合起来回归 
效果最好，……如此下去，直至得到“最优”回归方程为止 • 

在向前引入法中的终止条件，一般有下列三种筛选 方法： 

(1) 给定显著性水平《，当某一步对将被引入变量的回归系数作 
显著性检查时，若/，则引入变量的过程结束，所得方程即为“最 
优”回归 方程； 

(2) 指定方程中自变量个数 w 。， 当方程中引入的变量个数=讲。 
时，逐步引入过程 结束； 

(3) 给定选择自变量的某个准则（后面将介绍），逐个引入变量， 
于是我们得到的分别含有一个，两个，……及全部自变量的 m 个回 
归方程，按给定准则从中选出一个最优的回归方程.这个方法有一个 
明显的缺点，就是由于各自变量之间可能存在着相关关系，因此后续 
变量的选入可能会使前面已选入的自变量变得不 重要. 这样最后得 
到的“最优”回归方程可能包含一些对 r 影响不大的自变量 • 

向后剔除法与向前引入法正相反，首先将全部 m 个自变量引入 
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间•由 E (: V 。)的点估计的分布容易得出 E (： y 。) 的置信度为 l — a 的 
置信区间为 

[ i'o d \ fi'o + d {] (其中4 M V x ' 0 (. C ' C )~ l x a ). 

该区间以 j ;。 为中心为半径(显然4<刃. 

3. 控制问题 

控制问题实际上是预报的反 问题. 如实际问题要求 jy 。 落在一定 
的范围内： 4<九<召，问如何控制自 变量： ^的取值，这就 
是控制问题. 

给置信度1 一 a ( a 称为显著性水平），则近似地有(当 «= o . 05 ) 
■P{i。— 2ff < j> 0 < j) 0 + 2 a ) = 0. 95. 

解不 等式： 

ly 0 + 2ff < B , 

\y 0 — 2^ > A. 

如果不等式有解，即得自变量 j ：。, ，^。 2 ，…，工^的控制范围. 

在实际问题中，常常希望通过控制 m 个变量中的某一个（或少 
数几个)来满 足对: V 。的要求 • 

§4.2 回归变量的选择与逐步回归 

在实际问题中，影响因变量 y 的因素（自 变量） 可能很多，人们 
希望从中挑选出影响显著的自变量来建立回归关系式，这就涉及到 
自变量选择问题. 

在回归方程中若漏掉对 r 影响显著的自变量，那么建立的回归 
式用于预测时将会产生较大的偏差•但回归式中若包含的变量太多， 
且其中有些对 y 影响不大，显然这祥的回归式不仅使用不方便，而 
且反而会影响预测的精度.因而选择合适的变量用于建立一个“最 
优”的回归方程是十分重要的问题. 

一、变置选择问题 

什么是“最优”回归方程？直观考虑应该是方程中包含的所有自 
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回归方程，然后逐个剔除对因变量 F 作用不显著的自变量.具体地 
说，从回归式 w 个自变量中选择一个对 y 贡献最小的自变量，比如 
是，将它从回归方程中 剔除; 然后重新计算 r 与剩下的 m —1个 
自变量的回归方程，再剔除一个贡献最小的自变量，比如巧 2 ，依次下 
去，直到得到“最优”回归方程为止•在向后剔除法中终止条1 牛与向前 
引入法类似. 

向后剔除法的缺点 有二： 一是计算量大，特别当自变量个数 
很大，其中不显著变量又很多时，其计算量比向前引入法大 得多； 二 
是前面剔除的变量有可能因以后变量的剔除变为相对重要的变量， 
这样最后得到的“最优”回归方程中有可能漏掉相对重要的变量. 

逐步回归法是上述两个方法的综合 • 向前引入法中被选入的变 
量，将一直保留在方程中•向后剔除法中被剔除的变量，将永远排除 
在方程之外，这两种方法在某些情况下会得到不合理的结果，于是产 
生了一个自然的想法，被选入的变量当它的作用在新变量引入后变 
得微不足道时，可以将它 剔除; 被剔除的变量，当它的作用在新变量 
引入情况下变得重要时，也可将它重新选入回归方程.这样一种以向 
前引入法为主，变量可进可出的筛选变量方法，称为逐步回归法. 

在应用上，逐步回归法面临的一个较大的困难是引入或删除时 
的显著性水平〜或的选择，若 a in 和都选得大，最后所得方程 
含较多的自 变量; 相反，方程所含的自变量则偏少.理论上为保证筛 
选过程有限步停止，要求 心 ut ，但在很多实际应用中，人们一般令 
a m = « cu ,- 显然逐步回归法最终所得“最优”回归方程与显著水平 a 的 
选择有关，并不能保证所挑选出的回归方程在某种准则下是最优.但 
从长期实践看，一般地逐步回归法所选出的回归方程是较好的，加之 
计算量少，因而到目前为止它仍是被广泛使用的变量选择方法. 

2) 计算量很大的全子集法 

通过计算所有可能回归子集后按变量选择的标准选择最优回归 
方程. 选择方法包括尺 2 选择法 ( RSQUARE )、 CV 选择法 ( CP ) 和修正 
R 2 选择法 ( ADJRSQ ). 

设有 W 个自变量，这 WZ 个自变量的任一个子集都可以和 y 建 
立回归方程，为了寻找最符合要求的回归方程 ，一 个自然的想法是将 
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个自变量所有可能的组合，一一与因变量 y 建立回归方程，然后 
根据 实际的需要，按某一选择变量准则，逐一比较所有可能回归子 
集 ，找出最优回归方程.这就是全 子集法 •全子集法的最大优点是能 
够得到在某准则下的最优回归方程，这是上面 1) 中所提到的三种方 
法所不 及的.但是此法计算量很大，当自变量个数为 m 时，包含一 
个自变量的回归子集有讲个，包含两个自变量的回归子集有 cK - 
m X(m + l )/2) 个，一般包含々个自变量的回归子集有 Ci 个，那么 
所 有可能回归子集共有 2 m - l 个•如 w = 10 时，共有1023个，当 w 
较大时，数字 2 m - l 大得惊人，若没有一个巧妙的算法，即使是用计 
算 机也难以承受•目前不少学者提出了一些保留全子集法的优点，又 
可以大大减少计算量的算法，从而使全子集法成为一般工作中也能 
够使用的普通方法. 

3) 计算量适中的选择法 

不需要计算所有可能回归子集，但比较的子集个 数多于 D 中所 
提到 三种筛选方法的一些选择法，如 最小尺 2 增量法 ( MINR ) 和最大 
R 2 增量法 ( MAXR ). 这两个选择法的细节请参见参考文献 [18] 和 
[ 20 ]. 

2. 变置选择的几个准则 

回归变量的选择问题在实用中和理论上都是十分重要的•这个 
问题最大的困难就是如何比较不同选择(即不同子集）的优劣，即最 
优选择的标准•从不同的角度出发，可以有不同的比较 准则，在不同 
的准则下，“最优”回归方程也可能不同 • 

评价一个回归方程：的好坏标准通常 
从以下几个方面来 考虑： _ 

(1) 残差平方和 Q 愈小愈好，或者说，复相关系数 R = ^ U / l yy 
越靠近1 越好； 

(2) 剩余标准差 s — ^/ Q / (” 一 /w — 1) 越小越好; 

(3) 回归方程中包含的自变量的个数 w 越少越好. 

如果按(1)， Q 愈小愈奸(或 R 愈大愈好）的原则来选择自变量 
子集，则毫无疑问应该选全部自变量，这与( 3 )矛盾•显然 (1) 和 （3) 不 
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能独立地作为选择变量的准则，希望给出类似于 (2) 的同时兼顾 Q ， 
m 都小的准则. 

所有自变量个数为 A 的回归子集有 Ct 个.通常记为 Aik ). 显然 
子集 ACO 中变量个数为 

设回归子集 >1(^) = {/! ，£ 2 ,…， /*} C {1 ，2,…， w }. 相应的回归模 

型为 

\ y t = + + …+ 择 、工 , 、+ £< (t = 1 ，…， 《) ， 

i £l ， e 2 ， … ， e„ ~ N(0,a 2 ) 且相互 独立. 

(4. 2. 1) 
记 


卢 04(是)） = (凡， ' ，…， 汉 4 )，， 



_ 1 

工1.、 

… V 


^1 

C ( k ) = 

1 


… • r 2'* 

， r = 

yz 


.1 




_ y n . 


则回归模型 (4. 2.1) 可表为 

iY = C ( k ) j 3( A ( k )) + e , 

L 〜 AUG , 成). （4.2.2) 

模型 (4. 2. 2) 中参数的最小二乘估计为 

HA { k )) = [C ⑷ 'C ⑷； rt ⑷ , y ; 

残差平方和为 

Q ( A ( k )) = (7 - Y)'(Y - Y ), 

其中 f = C (々)$ G 4 a )) ; 决定系数(即复相关系 数及的 平方)为 

R 2 ( A ( k )) = 1 - Q ( y -^ )) . 

Lyy 

对于变量个数为 々的 Ci 个回归子集 AGO 中，设子集 LOO 满足 

def 

Q ( L ( A >) = minQ (^4(^)) == Q *. (4.2.3) 

即子集 LU ) 是自变量个数为 A 的所有回归子集中残差平方和最小 
的一个子集. , 
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对于不同的变量选择准则，选择最优子集的方法都 WJ 分两步进 
行，首先对固定变量个数 A U = l ， 2 , …,讲），求满足 U .2* 3) 式的子 
集 LOO ; 然后按不同的准则确定变量个数1 

比较不同子集优劣的准则常见的有以下几种(记 w 为观测个数, 
A 为子集模型中自变量个数). 

准则1 均方误差 5 2 最小. 

选择子集 A ， 使均方 误差： 


S 2 ( A ) 


Q t 

n — k — 1 


达最小. 


显然均方误差 / G 4) 是由子集 A 确定的回归模型中 a 2 的无偏估计量. 
准则2 统计量准则. 

一般称7与 m 个自变量: r , 的 n 次观测数据满足的 
回归模型 (4. 1.1) 为全回归模型.如果 w 个自变量中有部分对 y 的 
影响不显著，这类自变量是无用变量，不妨设: t , 1+1 ，…，工,~是无用变 
量.这时称 Y 与:^ c , 2 ，…， ' (有用变量）的回归模型 （4. 2. 1) 为选 
回归模型(简称选模型). 

对样本点 


(1，&，…，\ i 

def 

— ( x,(ky \ x t (m — kY ) Ct = Hn ). 

当选用模型 (4. 2. 1) 时由回归方程可得样本点的估计值为 y t ( k ), 
它与理论值的偏差平方和记为•/*， 


X ； [x ( (^y W] 2 

<=1 _ 


可以证明， 

E ( J *) = E ( Q ( A ( k ))/ a 2 + 2 Ck + 1) - «， 

其中 cr 2 为未知参数，一般取 = — $ 作为 a 2 的估计. 

定义 4. 2. 1 记 f =々+ 1，称统计量 
QG4(/>-l)) 

Lp = ^ + 2/ — n 
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为 c , 统计量 ，其中/ 


n — m — 1 


C P 统计量准则 1:根据 E ( G )= E (心，选回归子集使得 
子集 a 的 G 值 ^+2 a + i )- w 达到最小. 


C P 统计 量准则 2:当选模型 (4. 2. 1) 正确时，有 E(Cj 〜(当《 
比 W 大得多时），选回归子集使得子集 Z 的 C , 与/>的差值 
\Cp — p \ = ^ + (^ + 1) — n 

达到最小. 


C P 统计量准则 3 :绘制 G 值随户 （ l</><m + l ) 变化的图形 
—— G 图，综合以上两个 Q 统计量准则，选/■使点(/>， G ) 接近 Q = 
P 的直线，且 C , 值最小的子集 Ur ). 


准则 3修正 i ? 2 ( 记为及 2 )准则. 
令 


及 2 = 1 - n — h l XI-R^, 

n — k — i 

其中当模型含截距项/?。时/ = 1,否则/ = 0.选回归子集 A ， 使得及 2 
达到最大. 

理论上我们认为满足以下两条原则的方程是最优的， gp : 

(1) 当增加变量时，不能使 i ? 2 显著 提高； （2) 变量个数尽可能少.修 
正圮准则就是在此理论基础上提出的具体准则. 

注意，当妒<々/(«_1)时，及 2 〈0•这说明相应的子集变量和 y 
的关系不密切. 


准则4 预测均方误差及平方和最小的准则(记 p = k + l ). 

(1) 乃统 计量： 这是 基于” 个观测点预测偏差及方差和最小的 
准则.即选择子集 A ，使得 




(n + p ) s \ A ) 达最小. 


(2) 心统 计量： 这是基于《个观测点的平均预测均方最小的准 
则.即选择子集使得 


〜 04) 


Qk/ in — p ') 

n —— p — \ 


s \ A ) 


1 


达最小. 
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(3) PRESS 统计 量：记 女(0为删去第〖个点后用其余 ”一 1 组 
观测数据来建立回归方程，并用于预测第/个观测点的预测值.即选 
择子集山使得 PRESS 统计量 

n 

PRESS (^1) = 2 ( 3 -, - y <(0) 2 达到 最小. 

准则5 AIC ， SBC 或 BIC 准则. 

该法则是赤池弦次等提出的，为同时兼顾 仏，々都 小的一类信息 

量 准则. ^ 

定义 4 . 2. 2分别定义 AIC，SBC 或 BIC 统计量为 (/>= 奸 1) : 

AICU ^)) - win 1 (雄 )) + 2 p , 
n r 

SBC ⑽ )）=„ l n 气⑷) + —， 

BIC(^a)) = win + 2(/> + l)q - 2q 2 , 

其中 q = Q ( A ( k ))/ n ' a2=s ' 是全回归模型中 ^ 的估 计量. 

以上我们采用在 REG 过程中所给出的 定义. 对于定义 4 . 2 . 2 中 
的 Q ( A ( k))/n 我们也可以更换成对应于选模型中的估计 ，即用 
^(^(^/(”一々一:^代替以乂⑷^”-选回归子集厶⑺^^，…， 
使 AIC (或 SBC 或 BIC ) 统计量达到最小的回归子集 L '( r ) 为 
AIC (或 SBC 或 BIC ) 准则下的最优回归子集. 

二、逐步回归分析 

逐步回归分析是目前被广泛使用的回归分析方法•全子集法虽 
最终可得到在某准则下的最优回归 方程; 但此法计算量大，即使采用 
—些巧妙算法，当自变量个数 w 特别大(如 w >30) 时，计算量仍很 
大.在这种情况下，人们普遍地应用逐步回归法来解决实际问题.逐 
步回归法吸收了向前引入法和向后剔除法的优点，克服了它们的缺 
点，计算量小，且最终保证得到相对于某显著性水平 a 下的“最优，，回 
归方程. 
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1. 逐步回归的基本思想和基本步骤 

以上介绍的选择回归子集的几种方法中，最常用的方法是逐步 
筛选变量的逐步回归法.逐步回归的基本思想和基本步骤 如下： 

基本 思想： 逐个引入自变量.每次引入对 y 影响最显著的自变 
量，并对方程中的老变量逐个进行检验，把变为不显著的变量逐个从 
方程中剔除掉，最终得到的方程中既不漏掉对 y 影响显著的变量， 
又不包含对 y 影响不显著的变量. 

基本 步骤： 首先给出引入变量的显著性水平〜和剔除变量的 
显著性水平然后按图 4. 1的框图筛选变量 • 



图 4.1 逐步回归的基本步骤 


2. 逐步筛选法的基本步骤 

设因变量 y 与 m 个自变量: c ,，^， …，〜 满足多元线性回归模 
型.从逐步回归的基本思想和图 4. 1给出的变量筛选的过程可知，逐 
步筛选变量的过程主要包括两个基本 步骤： 一是从回归方程中考虑 
剔除不显著变量的步骤；二是从不在方程中的变量考虑引入新变量 
的步骤.下面分别讨论这两方面的基本步骤 • 

(1) 考虑可否剔除变量的基本步骤.假设已引入回归方程的变 

①计算已在^程中的变量气的偏回归平方和尸,，及偏 
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="(“，…， i . r ) — — 

偏 , I r ) — ，/ 4 + 1 ,...,/ r ) 

=^ijhy (是=1，…， r), (4.2.4) 

其中 Q (… ）( 或 [/( …）或 i ? 2 (… ）) 表示包含括号中这些变量的回归 
模型的残差平方和(或回归平方和或决定系数).度量回归方程中变 
量重要程度的统计量可采用偏回归平方和的大小，也可以采用偏圮 
的大小•在 REG 过程中，筛选变量时使用的统计量为偏及 2 .以下介 
绍时，我们使用偏回归平方和尸 , t 作为变量重要性的度量.设 
P, o = minCP ,、 ，…，尸、）， 

即相应的变量 x ,。 是方程中对 y 影响最小的变量. 

②检验 x ,。 对7的影响是否 显著. 对变量 _ r ,。 进行回归系数的显 
著性 检验，即检验//。：汉。= 0,检验统计量为 

_ 1\ _ 

Fi ° ~ QC ?!, —, 2 r )/(n — r — 1) 5 (4.2.5) 

及 

P ~ ^ F io ) (其中芦 〜尸 （1 ，《 — r — 1)). 

若/，则剔除，重新建立7与其余 r - 1个变量的回归方程， 
然后再检验方程中最不重要的变量可否剔除，直到方程中没有变量 
可剔除后，转入考虑能否引入新变量的步骤•若/，不能剔除 
4。，转入考虑能否引入新变量的步骤. 

(2) 考虑可否引入新变量的基本 步骤. 假设已入选 r 个变量，不 
在方程中的变量记为 

①计算不在方程中的变量的偏回归平方和尸 4 及偏 

尸4 = Qdu —, i r ) — Q(i'i，— 

偏 K = i V z ” （走=1，2 ,…， w - r )， （4.2.6) 

并设 

= maxCPy，/^ )， 

即不在方程中的变量是对 y 影响最大的变量. 
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②检验变量对 Y 的影响是否 显著. 对变量作回归系数 
的显著性检验，即检验 H 。： 内。= 0,检验统计量为 


P . 




Q(*,» — »* r »io)/( w — r — 2) ’ 


(4. 2.7) 


及 


p = P{F^F h ) (其中 F 〜 F(l,” 一 r — 2)). 

若 p < a m ，则引入 x v 并转入考虑可否剔除变量的步骤.若，则 
逐步筛选变量的过程结束 • 

假设用逐步回归法得到 r 个变量 x ,,， x ,. 2 ，…，'，再建立 Y 与这 r 
个变量的回归方程，这就是用逐步回归法得到的“最优”回归方程. 

例 4. 2. 1( 水泥数据） 设某种水泥在凝固时放出的热量 F 
(卡/克)与水泥中四种化学成分工1，…，^4有关.共观测了 I 3 组数据 
(见表4.1)，试用逐步回归法求“最优”回归方程. 

解 使用 SAS / STAT 软件的 REG 过程来完成逐步回归计算 • 
假设引入变量的显著性水平 «in = 0. 10,剔除变量的显著性水平 
= 0. 10( —般取 a in = a out ). 

输出的计算结果首先给出筛选变量的 过程： 第一步引入一 
元回归模型的尺 2 = 0. 6745;第二步引入:与 A ， A 的二元回归模 
型的 R 2 = 0. 9725;第三步引入 A，Y 与和 _ r 2 的三元回归模型 
的 R 2 = 0. 9823;因引入新变量后原变量 A 变得不重要了，故第四步 
剔除与 A ， x 2 的二元回归模型的记 = 0.9787. 经过这四步后， 
筛选变量的过程结束，所得到的“最优”回归方程中包含两个变量，即 
为： 

Y = 52. 5774 + 1. 4683^ + 0. 6623工 2 . 

例 4. 2. 2( 水泥数据） 试用全子集法求水泥在凝固时放出的热 
量 Y (卡/克)与四种化学成分 x ,,-,- c 4 的最优回归方程 • 

解 使用 REG 过程中可完成所有可能回归子集的计算.所有 
可能回归子集共有2 4 —1 = 15个，各回归子集中回归系数的估计结 
果见输出 4. 2. 1. 在输出 4. 2. 1中，首先按回归方程所包含变量的 



§4.2 回归变量的选择与逐步回归 129 


个数为1、2、3和4个的顺序给出15个所有可能回归子集的参数估 
计；再对每种变量个数，按 i ? 2 值从大到小的次序列出回归^集的 
及 2 (第2列)及回归系数的最小二乘估计.如第 i 列（包含变量的个 
数)为2的第2行，给出包含变量心和1 4 的回归子集，该回归子集 

的 


R z = 0. 9725, 

由参数估计给出的回归方程为： 

^ = 103. 09738 + 1. 43996X! — 0. 61395x 4 . 

几种最优准则的统计量见输出 4 . 2.2. 从计算结果可以 看出： 
按及 SBC 统计量最小的准则得到最优回归子集为{^，巧}，该子 


输出 4 . 2.1 所有可能回归子集中回归系数的估计 


Nt«ber 

Model 


R^quare 


Intercept 


0. B74S 117.56793 
0.GSS3 57.42366 
0.5339 81.47934 
0.?859 110.20266 


2 

9 

2 

2 

2 

2 


0.9797 SZ.S77ZS 
0 ■ 972S 103.09738 
0 - 9353 131.28M1 
08470 72.074S7 
0.8801 94.16007 
0-5482 72.34899 


3 0.9B23 71.64831 

3 0.9823 4B.19363 

3 0.9813 111.68441 

3 0.9728 203.64196 

4 0.9824 B2.40537 


xl 



1.8BQ75 

0.76912 

-1 .2S57B 

1.46831 

1 .43996 

0 .66»S 


2.31247 

0.73133 

0.31090 

-1.19985 
■1.00839 

0.494^7 

1 .45194 

1 .69569 
1.05185 

0.41611 

0.65691 

-0.92342 

0. 25002 
-0.41004 
-1.44797 

1.55110 

0.S10T7 

0.10191 


-0.7381G 


<0.61395 
-0.72460 

-0.4S694 

•0.23654 

-0.M280 

-1.55704 

-0. H406 


输出 4. 2. 2 所有可能回归子奠中几种最优准则的统计量 


Nuaber in 
Nodol 



R-8quare Selection 

Method 



R-Square 

R^SquIri 

» C(p) 

138.7308 

142.48B4 

Z02.&488 

31S.1S43 




1 

1 

1 

1 

0.6745 

0.G663 

0.5339 

0.2859 

0.6-450 

0.6359 

0.4916 

0.2210 

S8.85I6 

S3.1700 
63.5195 
69.0674 

60.35154 

82.39421 

115.06243 

176.30913 

SBC 

59.9B154 

60.30709 

64.B4937 

70.19730 

2 

2 

2 

2 

2 

Z 

0.9787 

0.972S 

0.9353 

0.8470 

0.6801 

0.&482 

0.9744 

0.9670 

0.9223 

0.8164 

0.6161 

0.4578 

2.6782 

5.4959 

22.3731 

62.4377 

138.2259 

198.0947 

25.4200 

28.7417 

39.8526 

51.0371 

60.6293 

65.1167 

5.79045 

7-47621 

17.S7380 

41.S4427 

86.88801 

122.70721 

27.11484 
30.43G55 
41.54743 
52.73199 
62.32417 
66.61153 

3 

3 

3 

3 

0.9823 

0.9823 
0.9813 
0.9728 

0.9764 

0.9764 

0.9750 

0.9638 

3.0182 

3.0413 

3.4S68 

7.3375 

24.9739 

25.0112 

25.7276 

30.5759 

5.33030 

5.34562 

5.64846 

8.20162 

27.23368 

27.27099 

27.98735 

32.83568 

4 

0.9824 

0.9736 

5.0000 

26.9443 

5.9829S 

29.76903 
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集正是用逐步回归法得到的;而按其余统计量的有关准则得到最优 
回归子集为{工1，工2，心}- 

§4.3 多因变量的多元线性回归 

前面介绍的回归模型，因变量仅有一个，自变量可以是多个，简 
称为多元线性回归模型•在实际问题中，经常要同时考察多个自变量 
对多个因变量的相关关系.如环境科学中，在同一时间地点，抽取了 
大气样品，测得多种污染气体，如 CO ， S 0 2 等的 浓度. 大气样品中多 
种污染气体组成一个多维的随机向量，作为因变量;而大气中各污染 
气体的含量又与污染源的排放量以及气象因子 (风向 ，风速，湿 度等） 
有关，这就是一个多个因变量、多个自变量的回归问题•再如工厂中 
要同时考察某产品的产量和质量指标，质量指标还可分为若干项，这 
样产量、质量等指标就是一个多维随机向量，作为因 变量; 而影响产 
品产量、质量的因素也有多个，这又是一个多对多的回归问题•实际 
问题中，这种考察多个因变量与多个自变量的依赖关系的问题是大 
量存在的. 

多对多的回归问题，当然也可以化为多个多元线性回归问题来 
解决. 但多个因变量之间一般存在某种相关关系.如多种污染气体是 
来自同一大气样品，它们之间可能有某种相关关系，若分别对各种污 
染气体求其与污染源、气象因子的回归关系式，将会丢失一部分它们 
之间相互联系的 信息. 在介绍了多元线性回归分析和逐步回归分析 
后，我们还要进一步来讨论多对多的回归模型. 

一、 襆型和最小二乘估计 

1. 多因变置的多元线性回归模型 

设有 w 个自变量：々 ， x 2 , …， x ”，/> 个因变量： m ’ … ， y ” 假 
设它们之间有线性关系.今 有”组 自变量与因变量的实测数据 
x , 2 , …，: y ,2，... ，办）（*=1，2，…， 《) ，数据阵分别用 X，Y 表本： 
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x n ^ i 2 ••• x lm 
X Zl X TL ■** • r 2»i 


•Vii ^12 … y lp ■ 

y 2 i y 2 2 … y 2P 


L x ”i x ” 2 … 工細」 ly nl y n2 ― y np _ 

设《组 数据满足如下关系式 

ytj = ^0 j + + ― + + £ tj 

(’ = 1，2,…， w ". = 1，2,…， />)• 


^11 Pu ― P”, 《⑴ def 

: : • 

： : : : 

£ 11 ^12 *** ^\p C (l) 

_ ^21 € 22 * ## ^ 2 p def £( 2) def 

= . . === . === ( 

-- : : 

〜 … 乂、 _ 


d 择2,…， 3 p )， 


( € 1 ，芑2，…， 


^ = (1« ! X )卢 + E = C /3 + E ， 

其中 C 为 ” x(w + l ) 矩阵； 且假定 e w> =(£,•” 〜，•••，〜)，（£ = 1 ， 2 , 
…，”) 是相互独立的，其均值向量为0,协方差阵相等，均为2.进一 
步可假定 e (,) 〜沁(0,2) 0 = 1,2, •••,«). 

定义 4. 3.1 称模型 

jy = (h : ： X )^ + E = CjS + E , 


U K ) ~^(0,2) (i = 1，2,…，”）相互 独立; 


(4. 3.1) 


jy = (1, : X )/3 + E = C /3 + E , 

iE(e (0 ) - 0, D(€ (0 ) = J (r = 1，2广.，”）相互独立 

(4. 3.2) 

为多个因变量与多个自变量的线性回归模型，其中^和 £； 是随机 
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阵，#= (/3 0 ), 2= (>,,•) 是未知参数矩阵， X 是已知矩阵 ， C = 
( 1 „ ! X )，且 rank ( C)=w + l . 


2. 参数矩阵 P 的最小二乘估计 

与一个因变量的多元线性回归分析一样，采用最小二乘法来求 
p 的估计.为此，我们来考察残差平方和 Q •由 U . 3. 2) 式知 
E = y- (1„ ： X)/3 = (£,.p„ x , 

(i == 1，2,…，户）， 


残差平方和 q=E 习4 

因模型 (4. 3.'2) i 价于“拉直”后的 模型: 


y ; 


~c o … o _ 


"Al 


V 

Y 2 


o c … o 


Pz 

+ 

^2 

\ 


■ • • 

■ • • 

• ■ • 


1 

1 

l 



-O O … C - 

npX (nt+l)p 

Jp- 

(.m+l)pXl 

- e P- 


(4. 3.3) 


其中 



~yu 




V 


Yj = 

yti 

， ft = 


， £ j = 

e 2j 



- y»j_ 

»X1 

- 

(m+l)Xl 

-^nj- 

«X1 


记 


(i = 1 ， 2,…， />)• 


c 

... O ' 


I,x ••• o - 

• • 

-O 

… c. 


• • 

- 0 … l n X - 


则 （4. 3. 3) 式可简记为 

Vec(y) = DVec(/?) + Vec(E), 

其中£>为 n/>X (m + l )/> 矩阵，为 （w + l ) X /> 矩阵， E 为 nXp 矩 
阵.在模型 (4. 3. 3) 下 

Q [ Vec (^)]= 2 = [ Vec (£) T [ Vec ( E )] 

r = l j—l 




[ Vec ( Y ) - DVecC ^^ CVecCY ) - DVecC /9)] 
[ Vec ( Y )] , [ Vec ( y )] - 2[ Vec (/?)] , D , [ Vec ( Y )] 
+ [ Vec (/9)] , D , D [ Vec ( i 9)]. 


aQfVecC^)! 

: ,,, a[Vec(/?)]— 

Ik 附录中 §8 的 (8. 2) 和 （8. 3) 式），则正规方程组 

D 1 D[Vec (y3)] = D' [Vec (T)] 

解为 

Vec(0) = (D'Dy l D'Yec(Y). 

因 

Q[Vec(/3)]= [Vec(y) - DVec(^)] , [Vec(y) - DVec(/3)] 

=[Vec(y) — £>Vec(/§)]’[Vec(T) - DVec(/?)] 

+ [Vec(/?) - VecC/^jD'DEVecI^) — Vec(yS )]， 


所以 


min Q[Vec(^)]. 

一切 Vec (彡） 


Q[Vec(/?>] 

这说明正规方程的解 VecM ) 是参数向量 Ve C ( W 的最小二乘估计 • 
又 


Vec (/3) = 


(D , D)~ 1 D , Vec(y) 


\CC o … 

o cc - 
o o - c ( cJ 

( C ' C )- i C ' Y 1 
(C'cr^c'Y, 

ICC'C^C'Y,] 


_1 

c o … o ~ 




o c ， … o 

• • • 


Yz 


• • • 

-O 0 ••• c ，- 


- Y ,. 
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即其中 乙是第 _；•个因变量的„ 
次观测值.可见，在模型 (4. 3. 3) 下参数的最小二乘估计与§ 4. 1中 
一个因变量的回归模型 (4. 1. 2) 的结果完全相同.也就是说，在多对 
多的回归模型下，回归系数矩阵的最小二乘估计等于对各因变量分 
别建立回归模型时所得的估计量•这两者的一致性在某种意义下降 
低了多对多回归模型的地位，因此，必须设法提取其他信息，才能显 
示多对多回归模型的优越性，这将在§ 4. 4介绍. 

为了方便，下面把在“拉直”后的模型 (4. 3. 3) 下的正规方程及回 
归系数的估计“压缩”为矩阵形式. 

正规方程 


V f C O … O - 


~c o … o_ 



r 1 M j ■"K'w — 

「/I \ 1 

o cc - o 


O C - O 


1 

■ 办⑻ 


^X'L-AX)nY' -X'L^ x X'Y 

• • • 

• • • 

• • • 

Vec ( 卢 ） = 

• • ♦ 

• • • 

Vec(7) 

1 

• B - 


-— L^XinYy + L^X'Y _ 

- 0 O … C'C- 


-O O — C- 


m 


Y’ 一 X r L xxLxy"] 


等价于 C ' C(H … ,^)=c , (y 1 ,y 2 ,- ,1 %)， 即 

C'Cp = C'Y (其中(1„ 丨；0为《 X ( m +1) 矩阵). 

把 (m + l ) X /» 的参数矩阵沒分为 两块： 6( 0 )为 lX /> 矩阵， B 为 mX 户 
矩阵，则参数矩阵沒的估计可表为 

•6(0)' 

-B - 


r 

F = -y ( i„ 

1 

n 

1 

Lyy = Y'ih - 丄 1” 

1 

\ n 

I 

Lxy = — 丄 j : 


\ n f 


其中 

J = lnll 

于是分块估计的表达式为 


L 1 


1」 


^xx^x 


而且称 5 W) ，右满足的方程 




{C'C^CY. 


由分块求逆公式有(假定 rank ( C)=m + l ) 

ill- l ： X' 


( C'cy 


r + X ' L^X - X ' L ^ 
一 L~A . 


其中 


Lxx — X '{^ I n — 士 X = 士 X ' l ” = (王”…’无^)’. 


记 


f L xx 色 = Lxy , 
U 。) = Y ' - X ' B 


(4. 3.4) 


def 


为正规方程. 

3. 参数矩阵 2 的估计 

以上求得/?的最小二乘估计量$ ^=(~) (1 B +1) >^ 即得/>个因 
变量的回归 方程： 

= b 0j + 〜 X ! + …+ b mj x m (j = 1，2,…，夕). 

于是得《组资料的预报值为 




夕 12 

… yip 


' i j 

… 


厶 01 

^02 



夕 21 

夕 22 

… yi P 

= 

1 卜 21 

• • • T 

乂 2 m 



b\i 

••• b \P 


.y n i 

y n z 

… y nP . 


.1 ; 工》1 

… X nm _ 


)ml 

b m 2 

… K P 


cp ， 
















(1» X ) 


1" 占 (o) X B 


= i.y + \ i n - 

实测值 y 与预报值 f 之差 y - t 就称为残差.可以用它构造 2( 误差 
向量％的协方差阵)的估计量.残差 

y - t=y - i „ f ’ - - ^ j ) x £ 

= (- 士 - 士《 7 ) XL^ 


L -^ jjiY - XL - AL ^, 


Y - Y=Y - = (/„ - C { C ' C )- l C')Y 

=(/„- H ) Y . 

^ Q =(. Y - fy ( Y - Y )^ pX 户矩阵•当 p = \ 时（即多元线性回归 
模型），数值& ( y 广 y ) 2 称为残差平方和(或剩余平方和）.对 

j=l 

一般的/ >，Q 是/ > X /> 矩阵，它是残差平方和的推广，称为残差阵 . Q 
有以下计算公式： 

Q = (7 - YY ( Y - Y )^ Lyy - LyxL ^ L ^ 

= Y ' ( I . - H ) Y . (4.3.5) 

很自然地，我们用残差阵 Q 作为随机误差向量的协方差阵 2 
的估计，考虑到无偏性，常取2的估计为 


n — m — 1 

4.冷， i : 的统计性质 

定理 4. 3.1 在多对多回归模型 (4. 3. 2) 下 

- 

(1) P = 是 A 的无偏估 计量； 
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(2) 戈 是乏的无偏估计量 • 

证明以下只证明（2)，因 

def 

Q = Y'(I„- HW — Y'PY, 

其中尸==/„一 H 为” Xn 对称幂等矩阵.因而 
E(Q)= EdY'PY) 

= E[(y - E(7) + E(y)mr — E(7) + E(7))] 

= E(E'PE) + EOTPEQO 
=E(£ f PE) (因 E(y) = 而尸 c = O) 

T e ；l - 

=E : 尸 [£!，.",£」 

-UJ . 

— P £ j ~\ ) tpxp ) “ ，j = 1，2,…， />). 

在模型 (4. 3.1) 下， £(,> = ( e (1 , •- » e , > ) , ~ N / ,(0,^) ( z . = i ，2, …， 
*) 相互独立，且 X 即 

Cov = E ( e ( i e l7 ) = { k,l = 1,2, 一，/»)• 

于是 


E( e ； Pe 7 )= E (e„,-,£ m )P 



=trCPdiagO "，".，。"）） 



(因 e w 相互独立) 


= a i, tr(F) = <t, 7 (w - w — 1). 
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故有 

e ( — ^ q ) = s . (证毕) 

引理 4. 3_ 1 在模型 (4. 3. 2) 下，记身= (^i>)(»i+i)x^ 

Cov ( b ik , b jt ) = o u e ' i + i ( C ' C )~ 1 e j+1 
( i，j = 0,1,2, — ,/w； k,l = 1，2,…， />)， 

其中 e, 是第〗 个分量为1，其余分量全为0的单位向量 • 

证明因 b ik = e ' i + Je k , ^( = Z+i 知，故有 
Cov(6,.*， 〜)= E[(^! + i Pe k — E(e, f +] 冷 e*)) 

• ie' j+l Pe , — E! 如 ))’] 

= E |>; +1 (冷一 E 0)'> e ^ e l 0- E ( hye j+ J 
= e ' t + l (. C ' Cr l C ' - E [(7- E ( Y ))^； (Y - E (7)> , ] 

.c(c'c )-、 +1 

= e i + l i . C ' C )- l C ' (E(e*e；))C(C , C)-Vi 



则 

( l ) my m )=[\+ x ' L - x ^ x ) i ； 


(2) C0Vd)=r2 (:"=1 ， 2,… ， >n); 

( 3 ) COV(U)= 〜 L;i(*." = l ， 2 , … ， 户 ). 

证明由协方差阵的定义及引理 4. 3.1 即得以上结论.（证毕) 
定理 4. 3. 2在模型（4.3.1)下，设《>所+1， 

rank(C) = rank(l„ ； X ) = w + 1， 


则 


(1) #遵从矩阵正态分布 
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L (2) Q - W p { n - m -\, I ：)., 

(3) 冷与 Q 相互独立. 

证明 （1) 我们有 

P = (C'o-'cy = (C'C)- l C(Cfi + £) = /?+ (co-'cfi. 

由模型 (4. 3.1) 的假定 可知： 

S ： E - N xXt ( 0 , I n < S ) S ) (其中0为《 X />零矩阵） 

㈡ Vec (£') 〜 A ^( 0 , 八 ( g )2) (其中 0 为”户维零向量). 

I利用随机阵正态分布的性质 即得： 

0 〜 N im+l)xp ^, (CO-'C • [(CCm ® I P SI' P ), 

{:即 

I ' <=> Vec (冷 ’） 〜 A ^+ n / VecCm ' C )- 1 )^). 

(2) 由 Q 的计算公式 (4. 3. 5) 有： 

' def 

Q = Y' (/„ - H)Y == Y'PY, 

又知 Y 〜 N” x ,(C#，L0I：h 尸=夂一//=/„— CCC'O-f 是对称幂 
等矩阵 ，且 rank(P)=”一w— 1，由威沙特分布的性质 7 得 
Q = 7’尸7 ~ W p {n — m — 1 ,2, A) , 

:其中 A =[ C ^ T 尸 C /?= C » ( 因尸 C =0) .所以 

Q 〜 Wp(n — m — 1 ,2). 

(3) 因 # =( C ' C )— WY ， 考虑 

= Y'CiC'O-^C'OdC'O^C'Y = Y'HY, 

^ 其中 HcCXC’Crf 为对称幂等矩阵，且有 PH = PC{C'C)- l C' = 
i 0,由威沙特分布的性质 8 可知 

Q = y’py 与 3’（ c ’ c ) 屋 相互独立， 

I 故而有 Q 与3相互独立. （证 毕） 

定理 4 .3.3在模型 (4. 3.1) 下，记号同引理 4. 3. 2,则 

I ⑴‘鳴 (‘， ( 士+1/^半 )； 

I (2) A (, ) ~ A r ^(6 ， (0 ,/"2) ( i ’ = l ，2,…， w ) ; 

1 (3) 卜〜 iV „( Z ^，《 T ^ Zy X {) (j = 1 , 2 , ••• , p ). 
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证明由引理 4 . 3 . 2 及定理 4 . 3 . 2 即得以上 结论. （证毕） 

二、回归系数的显著性检验 

在多因变量的多元线性回归中，同样要考查某个自变量: T, 对/> 
个因变量的影响是否显著的问题.若对/>个因变量的作用不显 
著，那么在模型 ( 4 . 3 . 1 ) 中： r, 的回归系数 y 3 (i) = 0 ,. 判断变量: r,. 对户 
个因变量作用是否显著的问题，即要检验假设/^ = 0,0 = 1 , 
2 ,… ,m). 

更一般地，可同时考查几个自变量对个因变量是否有影响的 
问题，即考虑 模型： 

y = ( 1 , i x 1 )\ bm ]+ x 2 b 2 + e, 

1 L^」 （ 4 . 3 . 6 ) 

、 e u 、〜 N p (0，^ (i = 1 ， 2 ,…，”）相互独立， 

其中 C=(l„ i X) = (l„ i X； i X 2 ), 为给定矩阵， X 2 为 
nXm 2 给定矩阵，且 mi + m 2 = m . 
r^l 

记 D ，其中怂为叫乂/>参数矩阵，私为 m 2 X/> 参数矩 

- 召 2 」 

阵（叫 +w 2 = m) ，且 rank(C) =rank(l„ 丨 丨 X 2 ) =m + 1 . 检验假 
设 H。 ： B 2 =0. 这就是要检验一部分变量(即 ； 1+1 ，…，: c„) 是否对户 
个因变量没有显著影响. 

1. 检验: P < j 、 = 0 p 

首先来讨论某个自变量 x, 对 A ，…，八的作用是否显著问题. 
利用定理 4 . 3 . 2 和定理 4 . 3 . 3 即可得出检验的统计量.由定理 
4 . 3 . 3 知 

= 4 〜① (y 幻， 

记£, = ；^八，则在/ 4 ' ) 下 

Ej w 〜 KQ ， 幻‘ 

由定理 4 . 3 . 2 及 Q 的计算公式 ( 4 . 3 . 5 ) 知 
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Q = Lyy — LyxLxxLxy ~ w pin — m — \ ,S) , 

且 Q 与先 ,) 相互 独立. 由第三章: T 2 的定义 3.1.5 知，统计量 
T 2 = ( n—m — 1)(£, A 0 )，Q- 1 (五,/? 0 ,) 

= (» — m — 1) 吾 ' W Q - 1 
〜 THp，n - m — I ) (在 //?’） 成立时）. 

于是检验统计量为 


F= (P ~ ~ 1) ~ P + 1 T ， 

{n ~ m — \)p 


n — m ~ p /? (0 

P Y l 


F 、 P， n —爪 一/>)( 在 H ( 0 ° 成立 时）. 


显然，当 //P 成立时有見于是数值 


iQlu、 


应较小，常 


称％为变量: T , 对 f 个因变量7,，…，八的“贡献’，.当> =1时， 
V 产 为:^ 的偏回归平方和). 


给定显著性水平《，由样本观测数据计算 V ,及 f, = t m 「P Vi ， 

并计算显著性概率值(户值）若/><«，则否定 H? ，表示 
X ,对/>个因变量的作用 显著; 否则，: T , 对 /) 个因变量的作用不显著. 

2. 检验//。： B 2 = 0 
在模型 (4. 3. 6) 下，记 

Q = (1” ： X,), C = (1„ ： X, ： X 2 ) = (C, : X 2 )， 

残差阵 

Q = Y' (/„ - C(C'C)-'C')Y = Y' (/„ - H)Y. 

当 H 。 成立（即尽 = 0) 时，模型变为(设 rankd , : X ] )= Wl + l) 

r l • 

y = ( l n : D d + E = Cj ^ Cl ) + E, 

Lfi i J (4.3.7) 

£(,.、〜 N^0,I) (i = 1，2,…， n ) 相互独立， 

其相应的残差阵为 

Qi = y - = Y'{I„ - H X )Y, 

其中 

首先计算 Qi — Q 的表达式•因 0=((^ 丨 X 2 ), 记 
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D = X ； (/„-H 1 )X 2 , 


故有 


( C ' cy 1 ^ 


'C；^ C[X 2 1 

-1 

■(C；^)- 1 o' 

.X' 2 C x X' 2 X 2 . 


_ o o. 


一 


D -\ x ' 2 c x { c [ c x r l \ - !，）. 


因此 


Q= Y' 


/„ - (C, : x 2 )(c'cr 1 


c ；' 

Lx；, 


Y 


y ' (/„ - c .^ c ^-' c ^ y-r (in 


— c 1 (c , 1 c 1 >- 1 c ； )x 2 d- 1 x , 2 (/„ - Qccic^^c^y, 
即得 Qi-Q = Y' (/ „ - H l )X 2 D- 1 X' 2 (I„ - HOY. 


另一方面， 
p = { C ' C )- l C'Y 

-{C'.co^cy - (C ， 1 C 1 )" 1 C ； X 2 D- 1 X；(/„ - HOYlm + i 
_ _ D~ l X' 2 (In - HOY 」 mz 

于是良 — Hjy. 

所以 

Qi - Q= Y'U„ - H l )X 2 D- 1 X' 2 CI„ - H,)Y 

= B^D 5 2 = 贫 — H\)Xi (4. 3. 8) 

定理 4. 3. 4 在模型 (4.3. 1) 下，有 

(1) Q ~ W P i . n 一 m — \ , E ); 

(2) 在模型 （ 4. 3. 7) 下（即 H 。 成立时）， 

(3) Q 与 Q 相互独立 . 

证明 （ 1) 定理 4. 3.2 已证明 • 

(2 ) 因 Qi — Q=Y' (/„ 一 Hi)X 2 D l X 2 (Jn _ H\)Y ,iB R = Hn 一 
为 nXm 2 矩阵，为 m 2 阶矩阵，其中 H,= 



__§4.3 多因变量的多元线性回归 M 3 

•则 

def 

Qi ~ Q = Y'RD^R'Y == Y'BY. 

在模型 ( 4 . 3. 7 )下(即成立时）， 

Y 〜 N _( CJ 3 ⑴， 

且容易验证 s=i?zrw 是对称幂等矩阵.而 

R ' R - X' 2 U„ - HO'CL- HOX 2 = X[(I„- H,)X 2 = D, 

故 

rank(B)= tr(S) = tr ( RD ^ R 1 ) = triD ^ R ' R ) 

= trCD -' D ) = tr (/„ 2 ) = m z . 

由威沙特分布的性质 7 可得 

Qi ~ Q — Y'BY ~ W p {m 2 ,S,,A), 

其中 ^^[ C ^ Cl )]'5(74(1) = [(： 1； 3(1)]’/?£)- A ’ C ^ a ) = o , 这是因 
为 R Ci=X 2 (/„ — //])(7! =0 ，所以 Q! — Q ~ W p (»z 2 
( 3 ) 下面来证明 Q 与仏一<2相互独立. 

已知 Q!—Q=y’sy, Q 1= r (人 一 //况，从而 
Q= Y'PY = Q, - (Q, - Q) = r (/„ -HOY- Y'BY 
= ^ (/„ - H, -B)Y, 

故有 

尸 = — B)B =- //,£ =- CjCCjCO -' C ；^ = O 

(因 C [ R =0). 由威沙特分布的性质 8 可知 

Q = y ’ py 与 Q , — Q 相互独立. （证毕） 

下面来导出检验 //。 的似然比统计量. 

在模型( 4 . 3. 6) 下，似然函数(即 Vec(y’） 的联合密度函数)为 

L(/?, ^ )= (^) Js \^ 

- 1 n 

. ex PL ~ y g ( y «> - 皮 c u) )n - /?’ c (0 )] 
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- 2( y (,> —/^)( Y (.) U ] 

i=l 

= (270 _ n " 2 (|2|)—" /2 exp [— - C/?y(y - C /?). 

当 /?=/§，时， 


屮，呈) 


maxL (/?, X ) 


叫 Q . 


在模型 (4. 3. 7) 下，似然函数 


L (沒⑴ ，2) =(2 ir )-^ /2 (|2|)-" /2 


exp [- jtrS-\Y - C 1 /9(1 )) , (Y - C ， l ))} 


其中 /?(1)= ， Ce (1„ i 兄） ； 且当 /5(1) = /§(1)，2 =—Qi 时， 

■ 私」 n 


+ ⑴导 )== ⑽⑴， 2) 


exp ― —np 


因此似然比统计量为 


maxL (^( l ) ,. S ) = 丨 Qi /« I —" n 
maxL(j3,S) — |Q/«|— n/2 

IQ , r ” / 2 = I IQ ! 
\ Q\~" n _ UQ + ( Q , - Q ) 


等价于 


1 IQ + (Qi - Q)| _ |Q + B ' 2 DB 2 \' 

在 H 。 成立时 ， Qi — Q = B' 2 D B 2 ^ W P { m 2 , X ') , 又因 Q ~ Wp{n — m 
—1， Z ), 且0与兑一 Q 相互独立，由第三章定义 3. 1.7 知 

U 〜 A(p,n — m — 1 ,m 2 ). 


^ 直观地看，若只。成立，则 " 值应近似等于1;若 f / 值太小 ，则 
应否定假设 // D . 对给定的显著性水平 a ， 由样本资料计算 u 值为 M , 
利用检验统计量?/的分布，计算显著性概率值 (/; 值） 

当/ >< a ■时，否定//。，即认为％个自变量对/个因变 
量的作用 显著； 当/时，//。相容，即认为％个自变量^ … 

x „> 对个因变量的作用不显著. ’ 

当 m 2 = l 时， A 是”维 向量 ， D = X ^(/,- Z / j ) X 2 是一数值，记 
为 d , 面色 2 = 为 lX /> 矩阵，所以 


利用分块求行列式的公式有: 


iQ+^^,r 




IQ Hi +^/?L)Q' 1 /J (m) | 


i +# Ln . 

另 一方面，当％时，由第三章中的结论知 


(4. 3. 9) 


八、 P，n 一 w — 1， 1) 


比较 (4. 3, 9) 和 (4. 3. 10) 式得 


-7 T z ( p, n — w — 1) 


(4. 3. 10) 


T ' P， n ~ m - \)= { n -- m - \)d 冷 LQ — 1 


= in — m - \ ) 

即 f / 统计量可化为 T 2 统 计量; 再根据第三章的有关定理知 

F = (” 一饥一 1)— 々 + 1 下。. 

{ n - m ~ l)p 1 (户， n ~ m ~\) 

〜 F { p, n —— m —— />)， 

即 


~ T 2 ( p,n — m — 1) 
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1 -U 

U 


F { p，n 一 m 一 p \ 


这表明 c / 统计量在筛选变量过程中是很重要的统计量. 

例 4. 3. 1 设发电量 A ，工业总产值 y 2 与钢材产量水泥产 
量 : c 2 ，机械工业总产值 x 3 ，棉纱产量 A ，机制纸产量 x 5 之间有线性 
相关 关系. 现收集了 1949到1978年共30年的数据(见表 4 . 2) .试 
用 REG 过程求出与 x ,,^ 2 , x 3 , x 4 , x 5 的关系式. 


表 4. 2发电置与经济发展数据 


年 

XI 

0C2 

工 3 

工 4 

工 S 


y 2 

1949 

0. 9 

0.8 

0.14 

6. 63 

0. 24 

1.47 

7.31 

1950 

1.0 

2. 1 

0.15 

7. 07 

0. 46 

1. 25 

7.42 

1951 

2.9 

6.3 

0. 33 

7. 60 

1.02 

2. 05 

11. 13 

1952 

5.0 

4. 4 

0. 78 

12.88 

1.61 

2. 49 

16.08 

1953 

8. 2 

13.3 

1. 18 

15.86 

1. 63 

3. 16 

22. 86 

1954 

13.1 

16.8 

1.56 

18. 79 

1. 93 

3. 87 

29.52 

1955 

23.8 

17.8 

2. 11 

14. 63 

2,31 

4. 50 

34.54 

1956 

34.8 

27.8 

3. 09 

19. 79 

3. 32 

6.09 

41.22 

1957 

35.4 

22. 1 

3. 58 

16.50 

4. 44 

6. 78 

47.54 

1958 

47.0 

32.2 

7.31 

26.22 

7. 18 

10. 73 

60, 00 

1959 

62.6 

33.2 

9.61 

28.00 

8. 77 

17. 65 

78.00 

1960 

68.0 

55.6 

12. 85 

27.56 

9.89 

26. 84 

96. 20 

1961 

35.3 

24.4 

6. 76 

10. 95 

5. 58 

j 24. 20 

52.37 

1962 

31.3 

17.9 

5. 08 

10.15 

6.03 

20. 08 

37.77 

1963 

35.2 

24.8 

5. 54 

14. 23 

7. 18 

19. 28 

40.07 

1964 

45.3 

37.8 

7.14 

20. 38 

8. 80 

22. 89 

50. 36 

1965 

49.5 

78.8 

11.20 

26.56 

10.45 

28. 94 

65. 33 

1966 

59.7 

101.6 

15. 89 

33. 18 

12.51 

39. 05 

83.64 

1967 

47.8 

74.9 

10.86 

23.90 

11.42 

39.09 

68. 16 

1968 

17.7 

40.2 

5. 10 

17. 56 

9.03 

26.81 

41.64 

1969 

36.0 

73.3 

13, 14 

27.20 

8.05 

37. 19 

67.30 

1970 

62.0 

138.6 

25. 54 

36.28 

10.30 

54. 09 

103.57 

1971 

97.0 

247.0 

31,31 

41.53 

14. 18 

77.39 

135.80 

1972 

95.2 

270.0 

28.79 

40, 24 

15. 19 

84.02 

118.10 

1973 

118.4 

233.5 

28. 03 

38.20 

15.77 

88. 39 

119,62 

1974 

99. 9 

205.0 

26.50 

31.54 

12. 29 

86. 32 

112,39 

1975 

151.0 

288.0 

38. 61 

46.87 

17. 36 

107. 94 

144.41 

1976 

108.0 

262. 2 

31.46 

38. 62 

15. 10 

102. 76 

130. 66 

1977 

162.5 

358. 6 

46.21 

52. 48 

20.48 

118.84 

175. 10 

1978 

238.2 

454.8 

55. 86 

55.96 

26-40 

139.30 

214. 44 
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解此例因变量个数/> = 2 ,自变量个数讲= 5 ，)(见测数据„ = 30 . 
仍使用 REG 过程来完成多因变量的多元线性回归计算. 

输出的结果中给出两个因变量的回归方程如下： 

p, = 8. 9911 - 0.1675X, + 0. 1724. 2 + 1. 7036^ - 0. 7622x 4 + 1. 9 756x 5 , 
Y 2 = 4. 3224 + 0. 2757x, - 0.134U, + 2. 2313x s + 0. 9880x, + 1. 0502x 5 . 
两回归方程经检验都是高度显著的(力 <0 0001) ; 的 

回归系数在显 ■水 平 a = Q . 1G 下簡 是显辆 ，飾 关系数及 5 1：= 

° - 9901 (决定 系数杧= 0. 98 CM ) ; 误差标准差 （Root MSE ) 

6. 25355. 

v K 与 A ，…， A 的回归系数除:外在显著性水平 0. 05 下也 
〒是显著的，复触隸/? 2 = 。. " 33 (决定隸〃卜。 . 9867) ;误差 
标准差 (Root MSE)s 2 = 6. 56271. 工 

使用 REG 过程还可以完成几个自变量对于因变量的作用是否 
^著的检验.如输出 4 . 3 . 1给出三个自 变量; ^，工心对^不的影 
响是否显著的检验统计量 •除 4统计量外还给出其他几个统计量， 
结 论都是 否定爲 =0的假定，即自变量的影响是 
显著的. 


输出 4 . 3.1 多变量检验统计置 


fkiltivariate Statistics 


8 tatistic 

JJ"** 1 Lanbda 
Pi 1lai*s Trace 
Hotel Iing-Lawley Trace 
Roy • Gro«te«t Root 


M=0 N=10.S 

Value F Value 


0.17390860 
1.08953122 
3.23532937 
2.66743672 


46 <.0001 

<.0001 
28.955 <.000! 

24 <.0001 




3 24 <： 

is an upper bound. 


4 - 4 多因变量的逐步回归 


本节讨论多个因变量时关于自变量的逐步筛选方法，它的基本 
思想及基本步獅-个因麵舰下逐频細基本聽和基本步 
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d = u f u - ^ CiCO^Cu = u ，、 I n — H)u 


u f u — u ’（1„ i X ) n - 


+ X ' L^X 




- X ' L-A n ：- 

…… r - i …… IX '. 




- ux 1 r — t J h 


^ L uu - u '\ l n - 士 •/) XL ^ X ' (/„ - j^jju 

~ L uu — I ^ u xI ^ xx^Xif 

类似可得 u f a n ~ H ) Y = L uY ~ UxLxxLxy . 所以 

^(«) ~ d 1 (. L u y — L u xLxx ^ xy ) 


~ b i 0) ( u )' 
- B ( u ). 


一 ( CC )- l Cub iu) 


7 + X ' L^ x X 

— X ' L ^ 

- L~AX 

^XX 


- X ， u - 


厶 (0) — ub( U) + X ! LxxLxJfiu) 

- B — Lixx^xvbiu) _ 


B ( m ) = B — LxxLxJjm » 

^(o) (m) = ^(o) — -)- X'LxxLxub<, u ) 

=b( 0 ) — ub( U) + X' (B — BM) 

=Y' - X' B{u) - ub M . 

又在模型 (4. 3. 6) 及 (4. 3. 7) 下，已证明 

Q , - Q = - H ,) X 2 b 2 . 

对应于模型 (4. 4. 2) 及 (4. 4. 1) 有： fi 2 = S (B) , X 2 = m , C t = C . 故有 
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Q — Q ( u )= b [ u ) u f ( I n — H ) ub Cu) 
= b iu ) db {U ) — db { u ) b (u) , 


Q ( u ) = Q — db \ u ) b (u) . 

2. 检验 //。： b { u )= O lxp 

根据 § 3 的公式 (4. 3. 10) 选检验 统计董 

THp,n — r ~~ 2) = (n — r — 2) db iu ) Q ~ u \ b \ u) , 
其中 d = u , u - u , C ( C , C )- l C f u = u , a n - H ) u；^L 


(证毕) 


( C : C “)- 1 


~CC Cu 
- u'C u ! u - 


* d — 


J (.r f-2)X(r-f 2) 


d 一' = 心 2( C ! A ) 一 1 〜 + 2 

=( ClCJ * 1 的第 r + 2 个对角元素. 

利用定理 4. 4.1 及附录中§ 4的定理 4. 2可得 

b( U )Q7u]Ku) = 石 ⑷ (Q — db' (u) b iu) )~ l b[ u) 

t Q -\ I JQ — 1 

U + i ~~~ I n-ilT 6 ⑻ 

1 — db iu) Q l b, u) l 

_ b ( u ) Q ~% u) 

1 — db ( u ) Q ~ l b [ u) ' 


T 2 ={ n - r -2) • 

]— db { u ) Q "' b w 

在 H 。 成立时: T 〜: T 2 (/ >，n —r —2)， 从而 

F= (n - r - 2) - ^> + 1 T z 

p n — r — 2 

_ n — r — p — 1 db^ u) Q l b (u) 

P 1 — dh ( u 、 Q -% tl 、 


F { p y n ——r — p — 1). 
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给定显著性水平《，由样本观测值计算 r\F 值(记为 /) 及显著性概 
率值值）： 

p — P{F ^ f ) (检验统计量 F 〜 F(p，n — r — p — 1)) ， 

若声 < a ， 否定 H 。， 即变量对/>个因变量的作用显著;若/■，则 
H 0 相容，即变量 A 对/>个因变量的作用不显著. 

利用似然比原理，可引入统计量 U ， 且由 U 和了 2 的关系有： 

" = _^ 

1 + db iu) Q"\u)h\ u) 

= 1 = _ 1 _ 

_ 1 , T 2 _ — 成“) Q 一 1 砍） 

” - r - 2 + 1 — db ( u ) Q ~% u , 

^ def ” 

=1 — db 、 u 、 Q - 1 h、 u y = 1 — 


其中 


V u = db {u) Q~ l b\ u) . 


显然⑷ Q — 是变量 w 对户个因变量的“贡献”. 


(4. 4. 4) 


3 . 在模型^^^下检验/^^^^二^^/, 

在模型 (4. 4. 1 ) 下检验 i~/o } ： ^(,) —Oixp (z = 1，2，…， r) ， 其中办⑴ 
是参数矩阵万中第，个行 向量： 

) ⑴ - 

B =： . 

-厶 ( r > - 

由 §4. 3中小节二“回归系数的显著性检验”的讨论可知，在 
H ( 0 ° 成立时统计量 

T 2 = (n — r — 1 ) b ( t ) Q l b[ n /r 


〜 T 2 ip，n — r — 1 )， 

其中 r 为的第/个对角元素.于是在成立时， 


r 一 1 


FQp，n — r — p). 


给定显著性水平《，由样本值计算检验统计量 f 的值(记为 /) 及显 
著性概率值 值）： 
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p = P { F ^ f ) (检验统计量 F 〜 F (户， „ — r —/>)), 

若/«<«，否定 Hf ， 即变量 _ r , 对 f 个因变量的作用 显著; 若则 
H T 相容，即变量 x , 对々个因变量的作用不显著. 

二、多因变量逐步回归的步骤及算法 

设有々个因变量与/«个自变量，观测数据阵为 

x n x u …^ 12 … ' y ip " 

X = Xn Xn X2m Y = yn yu ■" 

:i i ?= :: : - 

- x - 1 x «2 x 細」 L^i y „2 y„ P - 

l . 准备工作 

U ) 考虑是否对原始数据进行标准化.由于变量 • z , G . = l ，2, …， 
»2)和 A (_/= l ，2, …， /)) 所取单位不同，取值范围不同，为了减少量纲 
的影响及减少计算误差，经常对数据进行标 准化. 标准化的方法有多 
种，在这里我们采用标准差标准化，即令 

x ti = -:•(:) * 0 = 1 ， 2 ,… ， m ; ，= 1 ， 2 ,… ， ; 0 ， 

其中元=士堂 ) a ， 、⑴—无) 2 •令 

*=1 V 1 «=i 

势 —~~ yj " 1 n 

A — 5 ^(^) 0 = 1 ， 2 , …，/>;， = 1 ， 2 ,… ， ? 0 ， 

其中无=||^， 

(2) 计算阶矩阵 L . 设中心化后的数据阵记为 X 和记 

L = L (0 \m 

£<0) __ X' X X' Y def ^( 0 )^ _ ^XY m 

为 (m + /0 X (;«+/>) 矩阵.如果数据已做标准化变换，则矩阵// 0) 就 
是 m + p 个变量的相关阵. 
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(3) 给定引入变量时的显著性水平〜和剔除变量时的显著性 
水平 a™, (要求 

2. 逐步筛选自变量 

下面我们从 L ( 。>出发利用消去变换进行多因变量逐步回归计 


第1 步： 考虑从 m 个自变量:^，…，中能否引入变量的步骤 
和公式.具体 如下： 

(1) 计算自 变量: c,(f = l，2，...，w) 对因变量的贡献，由公式 
(4.4. 4) 可得 

V, = d i b in Q~ 1 b' (i , (/ = l ， 2 ， ... ， wz )， 

此时方程中变量个数 r=o , 故，心其中 
i l iY = ( Ci + i ) » C ™+ 2 ) Q = 

于是 


/(O) r(O) f 

v, = it k* 


/( O ) T —1 j ( O ) 
^iY ^ YY L Yi 


(2) 选 V, 最大者，记为，即 

(3) 检验: ^ 对因变量的作用是否显著（即检验 H。： 知, 
b u )— Oin P ). 因检验统计量 


n — p — 1 


di ba )Q l b (i 


P 1 — d.basQ x b it 


P—1 ' 

P 1 - 


〜 F(p，n — p _ 1 )( 当办 ( fl > = O' 乂 p 时 ）. 

由 z；。 1 矩阵出发计算检验统计量的值(记为 A) 及显著性概率值 
(/> 值）： 

p = P { F '> fi ) (其中 F! 〜尸(/>，《 — 户 一1)). 

若/><〜，则引入变量々,，并对作消去变换得 


L n) = 7 ， , 】 [L (0 )] 


f T ( 1 > T CD " 

lj XX ^XY 

T Cl) T (1) ’ 

L^YX hyy 」 


且从中，可得 

6(, > = /-V 的第， 'i 行）， Q(i'i) = L ^. 
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若/ >>a in ，则自变量的筛选停止. 

第 々步： 考虑能否剔除变量的步骤和 公式. 不妨设已引入回归 
方程的变量记为 Xl ，… ,x r (r< W ). 每引入或剔除一个自变量作一次 
消去变换，入 <8> 经若干次消去变换后化为 ⑻] .记 

「厶 m F ^ (1,1) ^ x ( i » 2 > : /^( Di r 

L — A (r)" i r ( r) = 人以 (2 ， 1) Lxx(2,2) : L ( j^( 2) m — r, 

L I^YX : ^YY j ••…: '： . r . 

L 4 x ( i ) l ^( 2 ) : 從」々 

利用消去变换的性质可知： 


其中 

L U = Lxx ( l , l ), L n = L ^( l » l )-^ xx ( l *2), 

L '3 = ，1从灯(1)， 

L 21 =- ^xx(2,l)Lxx(l,l), 

/ <22 = L xx (z,2) — Lxx(2,l)Lxx(l ,1)L XX (1,2), 

L 23 = Axy ( 2 ) — I ^ xx ( 2 , l ) Lxx(l , 1 ) Lxy ( 1 ), 

L31 ~ ~ L YX {\) Lxxi \ ， 1 )， 

人 32 = ^yx( 2) — L xx (2 ,l)Lxx(l ,1)L XX (1, 2 ), 

L 33 = At 一 1)^(1). 

「办 - 

显然，模型 y =( l „ : ； s ：( r )) +£中参数矩阵忍的最小二乘估计 

为 ’… 

厶2(1，1)乙灯(1)=厶益(1). 

残差阵 

Q = Lyy - L yx ( l ) L ^( l , l )/. xy ( l ) = L ^. 

以下是能否剔除变量的具体步骤： 

⑴计算自变量 x , 心•=1， 2 ，...，「)对 /; 个因变量的贡献： 
v - = d , ' b ⑴ Q -%) (!. = 1 ，2, …， r ) ， 


人 11 ^i2 

L !\ I "22 L 2 3 
_/> 31 L i2 L 33 _ 
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其中 d , = l / l ^\ b ^= l ^, Q = L ^. 又因为: c ,_ 为已入选的变量，由消 
去变换的性质知 

=—47 (* =丄，…，"）， 


/( r ) f 7 " ( r ) 、一 1 /( r ) 

L iY v-^yy > L n / • 
=— - -- 0 = 


1 ， 2 ， … ， r ). 


(2) 选 V , 最小者，记为 F ,。， 即 V , 0 = min V ,, 

(3) 检验变量 x ,。 是否可以剔除（即检验//。: /?(,。) = 0 # 或6(,。) 
0 1X ,) .计算检验统计量 


(n — r — !) — /> + ! 


n — r — 1 


p = P { F 2 ^ f 2 } (其中 F 2 〜 F (/» ，”一/> — /•) )• 

若，，则剔除变量:^，并对作消去变换得 L <r+1) = T , 0 [ L ( ^], 
且以 Z ^ + u 为当前矩阵，重复第々步的几个步骤，直到没有变量可剔 
除 为止; 若/，，则转入考虑能否引入新变量的步骤 • 

第是+ 1 步： 考虑能否引入新变量的步骤和公式•不妨设从未入 
选回归方程的变量为：^ +1 ，…， A ; 当前矩阵为 L w . 考虑可否引入新 
变量的步骤 如下： 

(1) 计算自变量 x /)= r + l ， …， w ) 对/>个因变量的 贡献： 

V , = d , b (]) Q ^ l b ' (j) (j — r + I ，.. , m ). 

利用模型 (4. 4.1) 和 （4. 4. 2) 下参数最小二乘估计的关系 （4. 4. 3 )可 
知， ( ijY — ijxdLxr '). 所以 

V j= djd~ x <diY — 1 ,xLxxLxy')Q~ } (hj — LYxLxxlx^d } 1 


(j = r + 1 ， … *w). 


上式中 


dj = X'j [/„ — C{C'C')~ l C'^\Xj — Ijj 一 (jx^xx^xj — r 
其中 C =( l „ 丨 X ( r », 为 X ( r ) 矩阵的第 j 列•又因为 x ,0' = r + 
1，… ， w ) 为未入选变量，由消去变换的性质可知 
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IjY = ( O ' 

故 Vj 〉0 ( j ’= r + l ，…， m ). 

(2) 选 K 的最大者，记为、，即 、= max 7,. 

j—r+l t >^ ,m 

(3) 检验变量巧。是否可以引入回归方程(即检验 H 。： /3 Oo) = 0, 
或 * o 0 )= O lx/ .). 计算检验统计量 

r = (n — r — 2) — /)+! _^_ 

1 p n -- (r + 1) — 1 

— n — p ~ r ~ \ ^ i 0 

— ^ 

及 

p — P{F 1 ^ /,} (F, ~ F{p,n — p — r — 1)). 

若/ ><« in ，则引入变量 x v 并对 L — 1 作消去变换得 L < r +1) = T , o [ L (r) ], 
且以为当前矩阵，转入考虑能否剔除老变量的 步骤; 若 p ^ a m , 
则逐步筛选自变量的过程结束. 


3. 给出计算结果 

设筛选自变量的过程结束时，入选的自变量为 ' , x , 2 ，… ， x v (r 
< m ), 矩阵/^经多次消去变换后化为1^=7^，^..，^) ( L <0 >). 
记 



r (r) : T (r) 
^XX : ^XY 




(1) 乙与七，'，…， ' 的回归方程为 

= 3 oi + A ( i r ( m +;)^,- 1 + ••• + ^ r r L + j ) X ir , 

r 

其中 冷。尸夕厂 2 G +#,, G =1 ， 2 , …，户). 

<=1 

(2) 协方差阵2的无偏估计为： i ：= — ~ L ^. 

(3) 考虑第 j 个因 变量 y , 对'，'，…，'的多对一回归模型， 
回归方程见 (1) 中所示方程.残差平 方和： 

Qj = d - Mm + i ) () = 1 ， 2 ，…， />), 


复相关 系数: 
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R j = a/i — ,(0) ^ — 0’ = 1 ， 2,…， />)• 

例 4 .4. 1 ( 例 4. 3. 1的 继续） 试用逐步筛选的方法求 y ,， Y 2 与 
的关系式. 

解 取显著性水平 A = = 0. 05 ， 利用消去变换对自变量作筛 

选，最终入选的变量为 A ， x 4 , 心，回归关系式为 

Yi = 8.499 + 2. 841 x 3 - 0. 849 x 4 + 1. 348工 5 ， 

Y 2 = 5. 293 + 1. 725 x 3 + 1. 005 x 4 + 1. 973 x 5 . 

复相关系数 Ri = 0 . 9855 , R 2 = 0 . 9900. 

§4.5 双重筛选逐步回归 


在多因变量的逐步回归方法中，引入(或剔除）自变量的准则是 
考察此变量对个因变量的“贡献，，大小，如果某一变量: c , 只对因变 
量 I 。影响显著，而对其余变量作用不显著时，那么对: r , 作显著性检 
验，很可能: c , 不能引入方程.在最终得到的回归方程组中，有的回归 
方程可能不是“最优”的，如在7,。的回归方程中，重要变量: r , 就没有 
被引入. 

在多因变量与多个自变童的回归问题中，实际情况可以理解为 
这样，因变量的一部分与自变量的一部分有密切关系.例如（不妨设 
为）7 1 ，1^，”.，'^ 1 与工, 1 ，4，...，'0< / „ ) 有密切的关系，另一部分 

…，1% 2 与'，:^，…，有密切的关系， . 最后一部 

分 y Ar +1 ，… ， y , 与 '， x v …有密切的关系.显然各部分 
的因变量中不能有共同的变量;而各部分的自变量中可以有共同的 
变量，因为 同一个 自变量 _ r , 可能对许多不同的 r , 甚至全部的 y , 都 
有密切关系•因此就提出了一个问题，是否有一种逐步的算法，既能 
庥因变量和自变量的关系来将因变量进行分组，又能使每个自变量 
对各组因变量的影响都能反映出来.这就是本节将要介绍的双重筛 
选逐步回归问题. 



一、 基本理论和公式 


1. 筛选自变量的基本公式 

设考查九个因变量组成的因变量组与自变量的相关 关系； 且在 
某一步骤引入方程的自变量为 j :,.,，: r ,+ 2 ，… ，_ r ~. 由§ 4. 4可得出筛选 
自变量的几个基本公式(设当前矩阵为/少 >=(/&)). 

(1) 变量 x ,. 对外个因变量组的贡献 


V , 


6 )( 0 — 




IV 


(J = 1 ， 2 ， … ， / w). 


注意：当 A 是已入选的变量时， (/yy) 7 = — /f ，故心〈 0; 当 : T , 未入 
选时， F,>0. 

(2) 考虑是否引入变量 : 2 ^ 。时，计算统计量 

(w — (r + 1) — 1) — />! + 1 __ 

P \ w — ( r + l ) — l 


n — r — p x — \ V Jo 

九 1 —f 


(3) 考虑是否剔除变量 I ,。 时，计算统计量 


Fz = 


(« — r — 1) — + l 

Pi 



n — r — p , 

= —-— (一 




2. 筛选因变量的理论和公式 

设/个自变量(不妨设为 A ，…，: r 、） 与/个因变量(不妨设为 
R ，…，>\ ) 的《次观测资料满足以下 模型： 


y = (i„ ； X) 


' 6(0 

. B 」 


+ E , rank ( l „ : X ) = 4- 1, 


£(o - (i = 1，2,…，" ） 相互独立. 


(4. 5. 1) 

如果添加一个因变量其相应的观测值为乃= 

…，^)'，设叫个自变量与 p ,+ l 个因变量的《次观测资料满足模 
型 
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( y ;^ = a ,； x ) L ；> j + E ., rank a „： x ) = , 1 + i , 


e *, - N Pi + l ( 0 , 2 ') (i = 1,2,…，”）相互独立， 


(4. 5. 2) 


■^12 Pi 
^22 - 1 




… 卢 OP, 

A(/., + l) 


/9u 

… 

^1(/>! + 1) 


fim x \ 

…汉 V, 

(/ >j + l) 


^(0) : r O 

B ^ r . 


定理 4. S . 1在模型 (4. 5. 2) 下有 
b ； 0) = (F \ y ,)- X ' B ', 

B ' = LZULxy : W), 


B ' = Lxx( L xy : Lxy .), 

LyY 一 LyX ^ xx ^ X \ 

Q* = . 

L Ly^y 一 Ly pcLxxLx 

证明在模型 (4. 5. 2) 下有 


LyYj — LyxL X xLxy } p \ 

LyjYj 一 Ly/LxALxYj Jl 


{CC)- l C(Y \ Yj) 

「士 ll — Zr ^ nXLxxX '[ l „ - ^ j ) 


L - x l x X '[ h -^ J ) 


(Y ； 乃）. 


‘ =(P 丨为）一 X ' L^dLxy \ L m ^ (T : 3；>) ~ X'B 
B ' = d(Lxr Lxy .), 
q* = (y ； YjY (/„ - ciCcr^'^iY \ y,) 


'y , (/ „ - h)y 

y , a n - H)Y 


ran - H ) y / 

Y'.Qn - H)Yj. 


(H = C ( C , C )- 1 C , ) 
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Lyy 一 LyxL X xLxy 

: ^YYj 一 Lyx^XX^XY j 

^YjY — Ly.xL X xLxy 

: Lyy 、 — Ly.xLxxLxYj 


.. :二:………十 . ! . •:二 . (证毕） 

■ L y )y — L Y .xL X xLxy : Ly.y. — J 

(1) 考察因变量 R 可否引入的统计量.在模型 (4. 5. 1) 下，引入 

威尔克斯统计量么=^，它反映了变量: n ， x 2 ，…， 

…， 1 %,之间的线性关系是否密切， A 值越小，表明:^，々，…，^^与 
K 不，…，的线性相关程度越高. ' 

在模型 （4. 5. 2) 下，= ~ rj ~ I 。* I r ，反映， : c 2 ，…， 4 与 

A ，^ 2 ,…，之间相关关系的密切程度，且 ■ A 2 < A 1 . 

考察比值爱，显然爱 < 1 . 若索〜 1 ， 这说 明引人因变量对回 

归方程没有显著 影响. 若_《 1 ，即，表明引入因变量对回 
归方程有显著影响. 

令统计量 — _ ，则 {/, 的大小就是因变量 y , 对回归方程 
的“贡献”.下面来推导％的表达式： 

L ( Y \ Y j xy \ Y j )= iY ; Y j )' j I „ -- 士 jj (y i y 》 


y 

In-~J 

n 

Y 

r 

1 

L ~^ J 


y \ 

{ l--j 

n 

y 

Y ' } 

{ h~-J 

n 



Lyy(X) = Lyy — LyxLxxLxy > 
Lyy^X) — L Y y j — LyxL X xLxy j » 
L y .y(X) = L y .y — L y .xL X xLxy > 
Ly . yXX ) — L Y } Y j — Ly . xLxxLxy 


则 
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Lyy ^ X ) 


Z#y.y(X) 


Lyy (X) "|/>! 


Ly y (X) J 1 


I Z>yy(X) I • I iy^y . (X) — Z/y^y (X )Z/yy 1 (X )Z^yy XX ) | 
|Lyy(X)| . \LyyXX ! 7)U 


Ly y (X : Y ) — Lyy . — Ly\x i Y)L { x : Y)(X \ Y )^ 


(X i Y)Yj 


L Y } y } ― (厶 y / ; L Y } y ) 


•(展 开整理） 


Uj=l 


Ly y .(X) — Ly y(^X)Lyy (X)Lyy (X). 


厶 i l^<y ： y ; )(y ir^-) I I 

|Z/yy(X) I • I /vy .y (X ; Y) | • | Lyy 1 
I Lyy I • \ Lyy. — LyyZ/yyLyy | • | Lyy(X) | 


L Yi yXX \ Y ) 
Ly y ( Y ) 


O = />! + 1， …， />)• 


利用 d 统计量与 f 统计量的关系，可以证明 


n — pi — m x — \ U j 


l-Uj 


F ( m”n — pi — m l — 1). 


利用统 计量心 可检验 Y , 可否引入. 

(2) 在模型 （4. 5. 2) 下检验 R 可否剔除的统 计量. 在模型 
(4. 5. 2) 下，威尔克斯统计量 


2 \L'{Y\Y J )iY\Y j ) I ' 

当剔除 y , 后得模型 （4. 5. 1)，且4, = !^.记 = = ^ - 

1，并称％为乙的“贡献”.则 
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„ n 一 p l 一 m、” 

F 2 — - - l Uj ~ F ( wij,n — />j — m {), 

利用 f 2 可检验 y , 可否剔除. 


3. 因变董筛选的另一模型 

在考虑因变量的筛选时,我们也可以把心 ，； r 2 ，…，和 y M y 2 , 
…，八所处的地位交换一下，即把；《个变量&，〜，•••，〜作为 w 维 
随机向量，来考察它与的依赖关系. 

假设变量 A ，〜•“，、与变量 Y , ，:^，…，'的”次观测数据满 
足 模型： 

x nXmi = d „ ； y > bm + e , 

^ L B 」( i + vx », (4. 5. 3) 

〜 N mi {0, S x ) (i = ]，2，〜， n ) 相互 独立. 

记 


yu 3^12 … y iPl 

^21 3^22 … 

• • • 

• • • 

• • • 

又1 … 3 v 】 

(1) 考虑逐个剔除7,(/ = ；1，〜，/> 1 )后模型(4.5.3)变为 ： 

‘ 1 

•^nXoij = (In ： 〜 + 丑， 

* [則」#， (4.5.4) 

£«> ~ iV mi (0,2 x ) 0 = 1，2,…，”）相互独立， 

其中歹 (/) 为从 Y 中删去第/列数据后的数据阵.云 ( D 为从 S 中删 
去第*‘个行参数心>后的参数矩阵.检验 y ,. 能否从方程中剔除即检 
验 H ^： b U ) =0 xymr 根据似然比原理选统计量： 

77 = 10( / >.)1 =_ 1 Q (/> i )| _ 

IQ(A - 1)1 _ IQ (/ >,) + [Q ( 九 -1) - Q(/>!)]| 

〜 Aim ^ ,n — p x — \ 

其中 Q (九)表示包含九个变量时模型 （4. 5. 3) 的残差阵.由第三章 
§3.1 的有关结论可得 
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T 2 {m x y n 一 pi — 1 ) = {n — p x 一 1 ) 


1 -U 
U 


= 0 ? — Pi — 1 ) (/ > 1 )^ 0 -. 

记(九)1(/ = 1，2,…，户山 则称〜 为变量 I 对变量 
工 2 ，…，: T Wi 的 贡献. 所以 

n — mi — / >1 1 — U n — m \ — p \ 

r = rr = W, 

m l U m x 


〜 F ( m 19 n — mi — p x ). 

利用 F 统计量可检验假设 H ^\ 

(2) 考虑引入变量 Kis / n + l ， …， />) 后模型 (4. 5. 3) 变为： 



■‘ 

X nX mi = (In \Y \ Yj) 

B 


b{j)~ 

Mi) 〜 N m (0,lx) {i = 

1，2 


+ E ， 


(4.5.5) 


(/>,+2)Xm 1 


^ lXm , 


检验 乃 可否引入方程中即检验 •• b iD = o x 

计算 y >( j =/> i + i ， …， />) 对变量々…，…，:^的贡献〜 

Uj = ^6 0) Q _1 (/ > 1 )^ 0 ) (> = pi + 1 ，…， />)• 


而 

T 2 = d)h'ip'Yb ’ u 、 = Uj 
w 一/ >1 一 2 1 — ^/ 0) Q _1 (/ 1 一〜 

则统计量 


(n — pi 一 2) 一 饥1 + 1 T 2 

m x n — p' — 2 


_ n — p x — m x — \ Uj 

m-i 1 — Uj 

〜 F ( m l ,n — pi — m x 一 1). 

利用 F 统计量可检验假设 Hl }, . 

由上可见，关于因变量的两类不同模型，用来筛选因变量的统计 
量是一样的. 
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二、双重筛选逐步回归的基本步骤 

设自变量（因子）为4，〜...，:^，因变量(预报量)为1^ 1 ，7 2 ，...， 
心，记为〜 +1 ，〜 +2 ，…，•它们共有„次观测数据，其数据阵 X = 
(• Tiv )» x ( m +/1 > ，其中: r ,,. 表示第个变量的第/次观测值. 


1. 准备工作 

计算 m 个自变量0个因变 量”次 观测数据的平 均值; 计算 w + 
P 个变量的相关阵(即标准化数据的样本协方差阵).规定筛选自变 
量和因变量的显著性水平 《 x 和 < r r (0< a x , a y < l ). 一般规定筛选自 
变量时引进和剔除变量的显著性水平相等，且记为规定筛选因 
变量时引进和剔除变量的显著性水平均为 《 y . 

2. 双重逐步筛选过程 

第 一步： 选入一个因变量考虑 j ^.( j = i ，2, … ，户 ) 与 Xi u = 
1，2,…，; W ) 的一元回归•从/ > Xm 个回归平方和中选最大者,相应的 
因变 量作为 I ,;也可以就取 [ 或任一个 1()=1 ，…，/ >) 作为 y v 

假设已计算了 A 步，入选的自变量有 Wl 个（不妨设为： r / …， 

，因变量有九个(不妨设为每引入(或剔除)一个因 

变量时，对前面得到的/?矩阵的相应块作消去变换. 

第 A +1 步： 筛选自变量(筛选因子). 

(1) 计算各个自变量对外个因变量的“贡献”； 

(2) 考虑可否剔除自变量.对已入选的变量 X ,.， 选出对^,72, 
…， I %, 贡献最小的变量, 记为: C ,。， 并检验4。可否剔除.若不能剔除变 
量，转入下面的 （3) 考虑能否引入新 变量; 若可以剔除变量工,。，则对 
当前/?矩阵的相应块作消去变换，并计算叫一1个自变量^九个 
因变量的回归模型下的威尔克斯统计量 Z( Wl — 1， A ) .然后重复第 
是+ 1步，继续考虑自变量的筛选. 

(3) 考虑可否引入新 变量. 对未入选的变量 巧， 选出对 Y x ,Y 2 , 
…，1^贡献最大的变量，记为 j ： v 并检验0： 4 可否引入.若不能被 
引入，则自变量的筛选过程结束;若可以引乂变量：^。，则对当°前沢矩 
阵的相应块作消去变换，并计算叫+ 1个自变量与^个因变量的回 





166 第四幸回归分析 


归模型下的威尔克斯统计量然后重复第々+1步，继 
续考虑自变量的筛选. 

第是+ 2 步： 筛选因变量(筛选预报量)•仍假设此时入选的自变 
量为叫 个(不妨设为々， …，： S ), 因变量为/个(不妨设为[，•••， 
1^) .每引入(或剔除)一个自变量时，对前面得到的及矩阵的相应块 

作消去变换. 

(1) 计算各因变量乃对讲 i 个自变量贡献. 

(2) 考虑可否剔除因变量.对已入选的因变量乙，选出对〜，巧， 
…，^^贡献最小的变量，记为 r ,。， 并检验 y ,。 可否剔除.若 r ,。 不能剔 
除 ，转乂 考虑引入新因 变量; 若可以剔除 I 。，则对当前尺矩阵的相应 
块作消去变换，并计算叫个自变量与/ > i - i 个因变量的回归模型下 
的威尔克斯统计量 A (/> : — 1, W !>. 然后重复第 k + 2 步，继续考虑因 
变量的筛选. 

注 意：当 Pi = l 时，考虑可否剔除的步骤应该跳过，直接考虑可 
否引入新因变量. 

(3> 考虑可否引入新因 变量. 对未入选的因变量 y ;， 选出对 
X 2 j '" ，^^贡献最大的变量，记为5^。，并检验1*0。可否引入•若 I 。不能 
被引入，因变量的筛选过程结束;重复第 & + 1 步，考虑自变量的筛 
选.如果自变量既没有可剔除的，又没有可引入的，则双重筛选过程 
结束，转入计算本组回归模型的有关 结果. 若因变量 I 。可以引入，则 
对当前 i ? 矩阵的相应块作消去变换，并计算叫个自变量与/>1 + 1 
个因变量的回归模型下的威尔克斯统计量 + 然后重复 
第是+ 2步，继续考虑因变量的筛选. 

在以上给出的双重逐步筛选过程中，自变量和因变量的地位是 
同等的.在引入一个因变量后，对自变量进行筛选，找出对这一因变 
量影响显著的自变量组，…， x ,+」； 然后考虑因变量的筛选，这 
相当于把:^ ， z 2 ，…，〜和 h ， y 2 ，…，>%的地位作一交换.类似地，用 
逐步筛选法筛选因变量，设 {f v …,为对 r 个变量('，&， 
…，气}影响显著的变量组，接着再筛选自变量，找出对 /个因 变量影 
响显 i 的自变量组，这一过程直至某步当自变量筛选后，没有因变量 
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可剔除，同时也没有因变量可引入时，双重逐步筛选过程结束. 

在张尧庭和方开泰编著的《多元统计分析引论》一书中，关 于双 
重筛选逐步回归方法的筛选过程是：每当引入一个因变量，立即转 
入自变量的 筛选; 每当剔除一个因变量，也立即转入自变量的筛选. 
显然这一过程突出了因变量，即逐次考察—个因变量的选入 (或剔 
除)对于影响显著的自变量组的变化. 

以上两种筛选过程有区别，计算结果有时也不完全一致，特别当 
p 较大时，对因变量的分组结果可能不相同•如果希望对因变量的分 
组细一些，一般采用《多元统计分析引论》中介绍的筛选过程. 

3_计算该多因变量组回归模型的有关结果 

假设最终入选的因变量为 U 2 ，".， ypi ， 自变量为々，&，._•， 
Xm i ' 观测数据阵" XXI )和 X (3)= y ( l ) ( X ( l ) 为 wXw ! 矩阵， x (3) 
为 wXA 矩阵)满足以下 模型： 

< y(l) = (1„ : 义⑴）识 ° 1 ) + £ ， rank(l„ ; X(l>) = Wl + 1, 

£(,) 〜〜(0，之） 0. = 1，2,…，”)相互独立. 

(4. 5. 6) 

(1) 计算回归方程组.但注意到原始观测数据阵 x 已经标准化 

处理了，故得到的回归方程应还原为原变量的回归方程. — 

(2) 计算模型( 4 . 5. 6) 的残差阵 

(3) 计算模型 a 5.6)的威尔克斯统计量4(„ 21 ， />1) .当户 1=1 时， 

\( m IN |Q(w, , 1 ) I U ( m •) 

( ” 1 ) - = 1 - t = 1 -圮， 

其中及是 L 与 的复相关系数，圮称为该模型的决定系 

数- yUm " 九)值越小，表明 Wi 个自变量和 A 个因变量的关系越密 
切. 

4- 计算下一组回归方程组 

从原始数据阵中删去已入选的因变量的数据 (注意 ，自变量的数 
据均不删），重复以上 2 和 3 两小节中的步骤，考虑 p - p x 个因变量 
与讲个自变量的双重筛选逐步回归，即可求得第二组，第三组，…… 
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第 L 组的全部因变量的回归方程•至此/>个因变量， m 个自变量的 
双重筛选逐步回归计算全部结束. 

例 4. S . 1( 马尾松毛虫的虫情预测） 马尾松毛虫危害极其严 
重，有时使整片森林树木死光•利用上几代虫情、各种气象因子、防治 
否、坡向地形，以及虫龄等因素对下几代虫情进行预测预报是松毛虫 
综合防治中一项有意义的工作•某县为对松毛虫的发生情况进行分 
析，在高山、丘陵与平地共均匀分布的设20个点，每月上、下旬分别 
调查统计有虫株率与虫口密度；并记录气象因子的资料.试用双重筛 
选方法建立虫情预报公式(见参考文献 [16]). 

解 预测的指标(因变量） 有： 

Y x ——本月上旬有虫株率（％)， 

7 2 ——本月上旬虫口密度（虫数/株）， 


y 3 ——本月下旬有虫株率（％)， 
y 4 —本月下旬虫口密度（虫数/株). 
对以上几个指标可能有影响的因素（自变量) 有: 


— cos (f|) 

.I 2k.\ 
工 2 — 叫 I ?) 


G _ = l ，2, …， 12)， 表示月份， 


——上月的气温（ I ：)， 

工 4 ——上月相对湿度（％)， 

x s -上月雨量 ( mm ) ， 

• r 6 -上月气压 ( mbar ) ， 

x 7 ——上月蒸发量 ( mm )， 
x 8 ——上月日照时数， 

Xg -上月上旬有虫株率 （ ％ ) ， 

x 10 ——上月上旬虫口密度（虫数/株）， 

——上月下旬有虫株率（％)， 

X 12 —上月下旬虫口密度(虫数/株）， 

X 13 ——上月防治否，这是定性变量，若 X 13 = l 表示上月进行防 
治;若 Xi3=0 表示上月没有防治. 
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以下是考虑交互作用后引入的自 变量： 

x 14 ——上月防治与否 Or 13 ) 和上月上旬有虫株率(工 9 )的交互作 
用： X14 = JTi 3 XX9 t 

工 IS -工 13 和上月上旬虫口密度 Cruj ) 的交互 作用： x 15 = x 13 Xa : 1 o , 

工 16 工 13 和上月下旬有虫株率 On ) 的交互 作用： Xi 6 = a ： i3X J ： u , 

工 17 -工 13 和上月下旬虫口密度 ( X 12 ) 的交互 作用： Xi7 = X , 3 Xj ： 12 , 

工 18 如和上月相对湿度 ( x 4 ) 的交互 作用： ■ z 18 = Xi 3 X 1 r « 4 . 

此例因变量共有/> = 4个，自变量个数 w = 18.部分原始数插见表 
4.3 (1976 年1月至1980年11月20个点的平均资 料). 


表 4. 3部分原始数据 



m 

wm 



■a 


■a 


■ 


WM 





■ 








■ 











kW 












mk 

_ 





■ 



m 

■ 


m 









mm 



釀 

D 


■ 





■ 





■ 












D 





ER 







■ 


■ 



■ 



m 


m 



由调查资料发现，有虫株率和虫口密度这两个指标很重要，如虫 
口密度较大，而有虫株率较低时，是幼龄的群 集期； 当这两个指标同 
时下降到较低点时，是世代交替期；当两指标同时上升时，是咸灾速 
发 期等. 要预测的指标是4个，它们之间可能有联系，自变量<因素) 
共18个，有的因素对指标影响大，有的可能影响很小，用双重筛选方 
法将指标分组以构造预报公式.计算结果 如下： 当取 = = l 

时(计算该例的软件通过规定筛选因变量和自变量的临界值 C 和 
K 来筛选变量），将4个指标分为两组. 

第一组包括 h 和1^ 3 ,其回归方程分 别为： 

?1 = 11. 117—0. 036 x 8 +0. 874 x 9 — 0. 168 x 18 , 

复相关系数私 = 0.88; 
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Y 3 = 22. 548-0. 095 x 8 +0. 832 x 9 -0. 300 x 18 ， 

复相关系数私 = 0.86. 

第二组包括 y 2 和其回归方程分 别为： 

7 2 =-131. 838+17. 806 xi + l . 57 Or 4 + 0. 553 x 9 + 0. 323工 12 ， 

复相关系数札 = 0.79; 

t 4 = —159. 4 + 23. 087々 + 1. 952 jt 4 + 0. 505 x 9 + 0 . 347 x 12 , 

复相关系数凡= 0.74. 

筛选的结果将 h 和 h 归为一组，即本月的有虫株率主要与上 
月日照时数 Oc 8 ) 、上月上旬有虫株率 ( x 9 )、 上月防治与否和相对湿度 
交互作用 ( x 18 ) 相关与 h 归为一组，本月的虫口密度与上月上旬 
有虫株率 Oc 9 ) 及下月下旬虫口密度 U 12 ) 均显著 相关; 且与月份及相 
对湿度也显著相关. 

当取 = h = 8 时，4个指标分为四组.因 F , 很大，相当于对4 

个指标分别作逐步回归.所得回归方程分 别为： 

Y , = 4.614 + 0. 869 x 9 , 复相关系数私= 0. 87; 

= 6. 164 + 0. 820工 9 ， 复相关系数尺 2 = 0. 81; 

7 3 =- 3715 + 0.466 x 9 + 0. 402 x u , 复相关系数 /? 3 = 0. 73； 
Y 4 = 7. 270 + 0. 636 x 12 , 复相关 系数尽 = 0. 63. 

由以上计算结果可见，影响本月虫情的最本质因素是上月的虫 
情.当进行虫情预报时，仅侧重气象因子的作用是不够全面的，因为 
虫口原来的状况的重要性超过了气象因子，而且人为措施在害虫数 
量变动中也起了重要作用，这些都必须考虑在内. 

为了检验预测公式的精确度，我们用未参加计算的1980年12 
月的资料代入以上两种筛选临界值的回归方程，计算结果和实测值 
见表 4.4. 由表可见， Y 1 ， y 2 , y 3 的预测结果比 h 好. 


表 4. 4预测结果 


因变量 

实测值 

预测值 

F X = 2 , Fy =\ 

F x = Fy : =8 

yi 

42.4 

42.86 

39.03 

y 2 

41.0 

47 . 82 

38 . 64 

y 3 

7 . 3 

9 . 36 

6 . 95 


2.3 

10.05 

4.05 



用双重筛选逐步回归还可以对松毛虫虫情进行较长期的预报. 
例如不仅对本月的松毛虫发生进行分析与预测，同时对今后两个月 
或更长时间的虫情也可进行分析与预测，当然这要求有长期的虫情 
发生的历史资料. ' 


习题四 


4-1 设 


>l = 

=a + e l9 


yi = 

= 2<2 —占 + e 2 ， e = 

£ 2 

y3 - 

=a + 2b + 

-^3- 


N 3 (0 9 < j z I s ). 


風豕寥奴 a 的最小二乘 估计； 

(2) 试导出检验//。： 的似然比统计量，并指出当假设成立 

时，这个统计量的分布是什么？ . . 

4_ 2 在多元线性回归模型 （ 4 . 1. 3 )中(/> = 1)，试求出参数向量 
0和〃 2 的最大似然估计. 

4- 3 设^与々 ， 々有相关关系，其 8 组观测数 据见表 4 5 . 


表 4. S 观测数据 


序号 

XI 

X 2 

X 3 

Y 

1 

38 

47.5 

23 

66.0 

2 

41 

21.3 

17 

43.0 

3 

34 

36 . 5 

21 

36.0 

4 

35 

18.0 

14 

23.0 

5 

31 

29.5 

11 

27.0 

6 

34 

14.2 

9 

14.0 

7 

29 

21.0 

4 

12.0 

8 

32 

10.0 

8 

7 . 6 


(1) 设: V = ^ + ^ A +/? 2 _ r 2 + /3 3 _ r 3 + e ， 试求回归方程及决定系数 
於 和均方误差 A 

(2) 考虑二次回归模型： 


J =^0 + + p 2 x 2 + ^JC 3 + j3 iX \ + ^ x \ 
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+ + /3 7 J ： iX 2 + + /? 9 ^2^3 + £ * 

用逐步回归法筛选变量 ( 《 i n = «oui = 0_ 05) ，并写出决定系数尺 2 和均 
方误差 s. 

4-4 试对第一章表 1. 2 给出的肺活量数据建立肺活量 (OXY) 
与其他 6 个变量的回归方程： 

(1) 求肺活量 (OXY) 与其他 6 个变量的回归方程，并写出决定 
系数尺 2 和均方根 (Root MSE)s ； 

(2) 用逐步回归方法建立 “ 最优 ” 回归方程 （ ff=0 . 15 和 a = 


0.05); 

(3) 用全子集法在修正圮准则下求最优回归方程， 
4-5 ■ 考虑 Y 与 x,,x 2 , —,x m 的逐步回归，由 




X，X ! 

X，Y 

•rx 

Y f Y 


出发，第一步引入 A ，记 A ⑴ = ' ( A ( °)) ;第二步引入 A ，记 A ( 2 ’ = 

: t ,、( a ⑴).证明第三步不可能剔除变量 (用 反证 法). 

4-6 称观测向量 F 和估计向量它的相关系数尺为全相关系 
数，即 n 

2 (yi — ^)(:9; — J ) 

R = - rf ^ == " r 

J 自(: y , - 50 2 自(众 - 刃 2 

试证明： （ 1) ^=5? 

(2) i ? 2 = 2 ( 夕 , ■-歹) 2 /^ (>- 夕) 2 ; 

1 = 1 *'=1 

n 

(3) 残差平方和 Q(3) = (l — 尺 2 )E(V— 5) 2 - 

r = l 

4-7 在多因变量的多元线性回归模型中，给定 Y„x/» ， X „ Xm ，且 


(其中3 = 士 E ^' j - 

v t=i 


rank(X) •记 (l n : X ) •则 


Q(^>= (y — cpy (Y — cp) 

= (Y-C^Y(Y-Cn + ^ - pyC'C0 -/?), 


其中 g ^{ccr l c'Y. 
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4-8 在多对多的'回归模型中，令 Q ⑻ = ( y — Q ?)'( y — C /?). 试 

证明$ 在下列四种意义下达最小： 

(1) trQ(y3)<trQ (/?)； 

(2) Q (/9)< Q (/?^ ; 

(3) _) KIQ (/?)|; 

⑷ ch ,( Q 0))$^( Q (/9))， 其中 chiM ) 表示 A 的最大特征 

值. 

以上 A 是 （w + 1) X /> 的任意矩阵 • 

4-9 设多对多回归模型为 

卜 

! X , : X 2 ) B , + £ = C /9 + £, 

- Bi - 

. E - N n >< p iOJ n ® I ), 

其中 兄和：^均为的数据阵，£和0 均为” Xf 的数据阵，艮 
和 B 2 均为 9 X /> 参数笼阵. 

(1) 试写出以上樓型中当私=£ 2 ^方时，的最小二乘估计 
和2的无偏估 计量； 

(2) 试导出检验 札: B l = B 2 的似然比统计量. 

4-10 考虑洛河在某河段河水受污染情况.考察的指标（因变 
量)有两个 ，yi 表示 bod 浓度 ; y 2 表示氧亏浓度•而 y M F 2 又与以下 
几个因素（自变量)有戋： ** 

A ——初始断面的 BOD 浓度 L 。， 
x 2 ——初始断面的氧亏浓度 C 。， 

X 3 ——水温： T ， 

J ：4 ——河流流量 Q ， 

^5一-排污口流量 g ， 

• r 6 -污水 BOD 浓度/， 

工7 -流过该河段所需时间 

共观测了 15组数据（见表 4. 6)，试用逐步回归或双重筛选逐步回 H 
求出 BOD 浓度 Y ,、 氧亏浓度1^ 2 与々，々，••.，々的回归 方程. 
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表 4. 6水污数据 


序号 

X x 

X z 

x 3 

x 4 

Xs 

x 6 

X 7 

■a 


1 

6.88 

一 0.25 

27.0 

67.4784 

1 . 1232 

477 . 0 

0 . 083 

9 . 35 


2 

6.08 

- 2.21 

27.5 

47 . 7792 

1 . 1232 

193 . 0 

0 . 083 


- 4 . 02 

3 

2 . 14 

- 3.04 

26.0 

47 . 7792 

1 . 1232 

404 . 0 

0 . 083 

15.60 

- 4 . 59 

4 

5.02 

- 0 . 73 

26.0 

85 . 6224 

1.1232 

363.0 

0 . 073 

5 . 88 

— 3 . 96 

5 

7.89 

- 2.26 

26.0 

85 . 6224 

1 . 1232 

363.0 

0 . 069 

6 . 34 


6 

2.38 

- 1.65 

15.0 

149 . 0400 

1.5552 

428 . 0 

0.104 

4 . 00 

- 1 . 74 

7 

1.86 

- 1.35 

15.8 

149 . 0400 

1.5552 

428.0 

0.104 

3 . 76 

- 1.47 

8 

1.02 

- 2 . 12 

17.1 

149.4720 

1.3824 

428.0 

0 . 104 

3 . 98 

— 2 . 33 

9 

1 . 22 

- 1.92 

17.5 

149.4720 

1.3824 

428.0 

0 . 104 

3 . 98 

— 2 . 19 

10 

0 . 90 

— 0 . 27 

17.0 

362 . 8800 

0 . 9936 


0 . 104 

2 . 78 

0.33 

11 

2.58 

- 0 . 09 

17.0 

362 . 8800 

0 . 9936 


0 . 104 

1.88 

0 . 23 

12 

2 . 78 

- 1.17 

13.5 

326 . 5920 

0 . 9936 

114.0 

0 . 104 

2.56 

- 0 . 74 

13 

2 . 10 

- 1.30 

13.5 

326 . 5920 

0 . 9936 

114.0 

0 . 104 

2 . 72 

— 0 , 80 

14 

2 . 32 

- 0.60 

14.5 

364 . 6080 

0 . 8640 

57.3 

0 . 104 

1 . 64 

- 0 . 62 

15 

2 . 96 

- 0.60 

14.5 

364 . 6080 

0 . 8640 

57 . 3 

0 . 104 

2.36 

— 0 . 32 



第五章判别分析 

判别分析是用于判断样品所属类型的一种统计分析方法.在生 
产、科研和日常生活中经常遇到如何根据观测到的数据资料对所研 
究的对象进行判别归类的问题.例如：在医学诊断中 ，一 个病人肺部 
有阴影，医生要判断他患的是肺结核、肺部良性肿瘤还是肺癌？这里 
由肺结核病人、良性肿瘤病人、肺癌病人组成三个总体，病人来源于 
这三个总体 之一. 判别分析的目的是通过测得病人的指标(阴影的大 
小、边缘是否光滑、体温多少…… ) 来判断他应该属哪个总体(即判断 
他患的什么病). 

在气象学中，根据已有气象资料（气温、气压、湿 度等) 来判断明 
天是阴天还是晴天，是有雨还是无雨.在经济学中，根据人均国民收 
入、人均工农业产值、人均消费水平等多种指标来判定一个国家的经 
济发展程度所属的类型.股票持有者根据某种股票近期的变化情况 
判断此种股票价格下一周是上升还是下跌•在市场预测中，根据以往 
调查所得的种种指标，判断下季度(或下个月）产品是畅销、平常或滞 
销？在考古学中，根据挖掘出来的人头盖骨的高、宽等特征来判别其 
民族或性别.在环境科学中，根据某地区的气象条件，以及大气污染 
元素浓度等来判断该地区是属严重污染、一般污染还是无污染.在地 
质勘探中，需要从岩石标本的多种特征来判断地层的地质年代，是有 
矿还是无矿，是富矿还是贫矿.在农林虫害预报中，根据以往的虫情 
及多种气象因子判别一个月后的虫情是大发生、中发生或正常•在体 
育运动中，根据运动员的多项运动指标来判定游泳运动员的“ 苗子” 
是适合练蛙泳、仰泳还是自由泳等等. 

总之，判别分析是应用性很强的一种多元统计方法，已渗透到各 
个 领域. 但不管是哪个领域，判别分析问题都可以这样 描述： 设有々 
个 w 维总体 ，…， G *， 其分布特征已知(如已知分布函数分别为 
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&( x ) 2 Cr ) ，…，或知道来自各个总体的训练样 本). 对给定 
的一个新样品 X ,我们要判断它来自哪个总体 • 

在进行判别归类时，由假设的前提，判别的依据及处理的手法不 
同，可得出不同判别方法.如距离判别，贝叶斯 ( Bayes ) 判别，费希尔 
( Fisher ) 判别，逐步判别，序贯判别等.本章介绍几个常用的判别方 
法. 

§5.1 距离判别 

距离判别的基本思 想是： 样品和哪个总体距离最近，就判断它 
属哪个总体.距离判别也称为 直观判 别法. 


—、马氏距离 


已知有两个类 G 和 G 2 ，比如 G 是设备 A 生产的产品， G 2 是设 
备 B 生产的同类产品.设备 A 的产品质量高(如考察指标为耐磨度 
X ),其平均耐磨度反映设备精度的方差 d = 0. 25;设备 B 
的产品质量稍差，其平均耐磨度；/ 2) = 75 ,反映设备精度的方差4 = 
4. 今有一产品 X 。，测得耐磨度 x a = 78, 试判断该产品是哪一台设备 
生产的？ 

直观地看， X 。与(设备 A ) 的绝对距离近些，按距离最近的 
原则是否应把该产品 X 。判断为设备 A 生产的？ 

下面考虑一种相对于分散性的 距离. 记 X 。与6:或0 2 的相对平 


方距离为 <( x 。) 或 <( 办），则有: 


, 2 , , _ (xp - //⑴） 2 _ (78 — 80) 2 

4 (工。）= ^ — 0> 25 


16, 


,r { n Oo — 户 ⑵） 2 (7..? ~ 75.). 2 _ 0 or 

响 。)=^ - 4.00 - 2 . 25 . 

因为4&。 ) = 1 . 5 <4=4(1。），按这种距离准则应判义。为设备 B 生 

产的.从图 5.1 可以看出，设备 B 生产的产品质量较分散，出现心为 


78的可能性 较大; 而设备 A 生产的产品质量较集中，出 现為为 78 
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二、 两总体的距离判别 

先考虑两个总体(々= 2)的情况.设有两个总体 Q 和 G 2 ，已知来 


囝 S . 1利用马氏距离对两个一元正态总体判别归类的示意图 

一般地，我们假设总体(^的分布为 AK // K )， 总体 G 2 的分布 

为〜(/ 2) ，4)，则利用相对距离的定义，可以找出分界点"* ( 不妨设 
，<，)，令 

(X — 戶⑴ ） 2 __ Qr — W "⑴心 + ^> a , def 

< — A 〜 = ^ T ^ T ~— ，， 

而按这种距离最近的判别准则为： | 判 XeG ,， x > ti ' , 

1 判 X ^ G 2 f . 

因只有一个指标，这时判别函数为： Y = Y ( x )= x . 此例中 〆 = 
79 ’因 x a =7 S < 〆 ，故判 X „ eG 2 •下面给出一般所元总体中这种相对 
距离 马氏(全称：马哈拉诺比斯 ( Mahalanobis )) 距离的定义 • 

定义 5. 1. 1 (马氏距离）设总体 G 为 m 元总体(考察;《个指 
标），均值向量为//=(列 ，内， …，;《„)'，协方差阵为 乏 力")—，则样 
品 Gn ， x 2 ，…'与总体 G 的马氏距离定义为 
d 2 ( X , G ) = ( X - rxyx~\X - fx ). 

当 w = l 时， 

dHx , G ) = 卢 ) f (工一户) = (x - M ) 2 

< s l ~ a 2 


的可能性 较小. 判断 X 。为设备 B 生产的产品更合理. 
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自 G , (/=1，2)的训练样本为 


XjjJ = (i = ly2；t = 1 ， 2 ,…， ”,）， 

其中 n , 是取自 G , 的样品个数，则总体 G , 的均值向量 〆 f) 的估计量为 


n- n- 

x u) = (士 …’士 2 =(王 ，王 r ，" •，式 ))'♦ 

总体 G 的协方叉的估计 i , (称为组内协方差阵)为 

*5, = ~~~~ 7 ^i = 0' j ， J ) ) mXm , 
rii —— I 

其中為=X) < x oi - x a) )(x ( '\ - x^y 称为组内离差阵; 

^ 0 ( 4 ) -王 r ) 

n ' 1 t =\ 

(/，_/•= 1，…，； w ). 

A e ( 

当假定名 =2 2 == Z 时，反映分散性的协方差阵2的估计为 
1 * 

S — ^ ^ 2 — ( 5 /)) mXm ， 

» = 1 

并称 S 为合并样本协方差阵，其中 

s u = ^ 17^2 S w — -对.)） 

f = l t = 1 

H,j — 1 ， 2 ， … ， w). 

问题是对任给定的 W 维样品 — ，要判断它来 
自哪个总体. 


1. 各=2 2 时的判别方法 

一个最直观的想法是，分别计算样品 X 到两个总体的距离 
4( x ) 和 4( X )( 或记为 /( XA ) 和 d 2 ( X ， G 2 )) ，并按距离最近准则 
判别归类，判别准则为 ®: 

I 判 XeG ” 当 WdGO <^( X ， G 2 ) 时， 
UjX 6 G 2 , 当 dWJ 彡 rf 2 ( X ， G 2 ) 时; 


或 


①本章一般采用第一种形式的准则. 
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判 xeG ,， 当时， 

当 /( x ’ g ,) >^( x ， g 2 ) 时， 

1 待判， 当 dHX,GO = J 2 a ：， G 2 ) 时， 

这里的距离是指马氏距离.利用马氏距离的定义及两总体协方差阵 
相等的假设，可以简化马氏距离的计算公式： 
d 2 ( X , G i )= (X - x u > ys~\x - x w >) 

= X ' S^X - 2「( S — 1 又 (,) )'X — 丄 ( n ' S - W ') - 
L 2 

= X ’ S-'X — 2 Y { { X ) (/ 1,2), 

其中 y ,.( X ) 是 X 的线性 函数. 对给定样品 X ，为计算 X 到各总体的 
马氏距离，只须计算 y ,( x ): 

y ,( x ) = ( s-^yx - ii = i ， 2 ). 

KX) 称为线性判别函数， a,.=5- 〗 X ⑴ 称为判别系数向置， c ,.= 

称为常数项. 

若考察这两个马氏距离之差，经计算可得： 

心义） 一 dl ( X )= 2 ^X ~ y ( X (l> + X ^ oJ ^-' CX 0 ' - X <2> ) 


其中 


— 2W(X), 

w { X ) = (x - x - vs-vx ⑴一 X <2> ), 


(X a, + x m ). 


则判别准则还可以写为. | 判 X6G ” 当 WOO>0 时’ 

1 判 X6G 2 , 当 W(；O<0 时. 

W(X) 是X的线性函数， gp W(X)= a ，（X —X* )，其中 a = 
5- 1 (X <1) -X <2) ). W(X) 也称为线性判别函数 ， a 为判别系数. 

l^CX) 把 W 维空间 K m 划分为两个 部分： D^iX： W(.X)>0} 
和 A=U: W(X)<0}， 即 A，A 是 IT 的一个划分.显然，判别方 
法的最终结果是得到 JT 中的一个划分.由判别函数 W(；Q 得到划 
分 A，A， 当样品X落入 A 时判 X6G 1; iX 落入 A 时判 XGG 2 . 
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下面考察 m = l 的特殊情况，并设两总体为正态总体，已知其分 
布为 AK〆 1 )， 〆 ) 和 iV < y 2 V 2 ) (两总体的方差相同，记为？），这时判 
别函数为 

W(x) = (x - ’H — /i <2) ) = a(x - 71), 

其中 ^ = a = ^ a ) ~/ f 2> , 不妨设"⑴〉 〆 ' 则 a 为正数, 

WU ) 的符号取决于 x >； S 或 x < 良当 x > Ji 时判样品;当 
P 时判样品 X € G 2 .从图 5. 2可以看出，用这种判别法会发生错判， 
如 X 来自 G , ，但却落入 D 2 ，被判为属于(? 2 .错判的概率为图 5. 2 中 
阴影左半部分的面积，并 记为户 (2 丨 1). 类似有 P (1 1 2). 



I "(1) — tJ i2) \ 

经计算可得 P (2 丨 1) = P (1 丨 2) = 1 -叫 户 比如当"⑴ 
= 80，//( 2 ) = 75，< t =2 时， F (2| l ) = 0. 1056. 由错判概率的公式及图 
5.2 可见，当两总体均值靠得很近(即1，一， I 很小)时，则错判概 
率很大，这时作判别分析是没有意义的•因此只有当两总体的均值有 
显著性差异时，作判别分析才有意义. 

2. 4^22时的判别方法 

当两总体协方差阵不等时，按距离判别准则先分别计算 X 到两 
个总体的距离 d 2 (X tGt ) 和/ ( X ， G 2 ) ，然后按距离最近准则判别归 
类，或者类似地计算判别函数，并用于判别归类•令 

def 

W ( X ) = d \ X , G 2 ) - d \ X,GO - - = Z ( X ) - Z 0 , 
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其中 Z(X) 为 X 的二次函数（因 名关為）， Z 。 是一常数(具体表达式 
省略了）.判别准则仍可以 写为： 

| 判 xec ,， 当取 ( x )> o 时， 
i 判 xec 2 ， 当 w ( x )< o 时. 




囝 S . 3两个一元正态总体距离判别法^,：^〜)的示意图 


当 m = l ， 两总体为正态总体时，记 G, 的均值为，方差为4 
0 = 1,2)，这时马氏距离的平方根为 

I x ——I 

d t {x) = ^^ a = 1,2). 


不妨设// 2> <" (1) ，当观测值 _ r 满足： 


d 2 (x) — d^x) 


x - pc m 

a 2 


Hi 


°X 


x + g 2 




(•r 一 〆 ） ， 


其中 


^ a) g 2 4 - fj. w a x 

a \ + a i '' 


它是 〆 的加权平均值（见图 5. 3) .它把直线分为两 部分： D ,= 
}和 A = {^<//*>. 这时判别准则为 

| 判 XGG ” 当尤>，时， 
i 判 xec 2 ， 当时. 

当力=心时，，=菸^或》常称为阈值点(分界点），阈值如何 
选取很重要，取得不当，错判概率将明显增加. 

例 5. 1. 1 (盐泉含钾性判别）某地区经勘探证明， A 盆地是一 
个钾盐矿区， B 盆地是一个钠盐（不含钾）矿区，其他盐盆地是否含 
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钾盐有待作出判断.今从 A 和 B 两盆地各抽取5个盐泉 样品； 从其 
他盆地抽得8个盐泉样品，18个盐泉的特征数值见表 5.1. 试对后8 
个待判盐泉进行含钾性判别. 


表 S . 1盐泉的特征数值 


盐泉类别 

序号 

K • 10 3 / C 1 
( X ,) 

Br • 10 3 / C 1 
( X 2 ) 

K • 10 3 /2 盐 
( X 3 ) 

K/Br 

( X 4 ) 

类别号 


1 

13. 85 

2. 79 

7. 80 

49.60 

A 

第一类： 

2 

22.31 

4. 67 

12.31 

47. 80 

A 

含钾盐泉 

3 

28.82 

4. 63 

16. 18 

62. 15 

A 

( A 盆地） 

4 

15.29 

3.54 

7. 50 

43. 20 

A 


5 

28. 79 

4. 90 

16. 12 

58. 10 

A 


6 

2. 18 

1.06 

1. 22 

20. 60 

B 

第二类： 

7 

3. 85 

0. 80 

4.06 

47. 10 

B 

含钠盐泉 

8 

11.40 

0. 00 

3.50 

0. 00 

B 

( B 盆地） 

9 

3.66 

2.42 

2.14 

15.10 

B 


10 

12. 10 

0. 00 

5. 68 

0. 00 

B 


1 

8.85 

3.38 

5. 17 

26.10 



2 

28. 60 

2. 40 

1. 20 

127. 00 


待 

3 

20.70 

6.70 

7. 60 

30. 20 


判 

4 

7.90 

2. 40 

4. 30 

33.20 


盐 

5 

3. 19 

3. 20 

1.43 

9. 90 


泉 

6 

12.40 

5. 10 

4.43 

24.60 



7 

16.80 

3. 40 

2. 31 

31.30 



8 

15. 00 

2. 70 

5.02 

64.00 



解把 A 盆地和 B 盆地看作两个不同的总体，并假定两总体协 
方差阵相等.本例中变董个数 w = 4,两类总体各有5个训练样品 
=« 2 = 5)，另有8个待判样品.使用 SAS / STAT 软件中的 DISCRIM 
过程进行判别归类. 

计算结果，首先给出两组间的平方距离（即马氏距离）为 
37. 02876,检验//。：戸 (1> = // 2> 的 F 统计量为 14. 46436,相应的户= 
0. 0059<0. 01，这说明 A 和 B 两盆地的盐泉特征有显著差异，因此 
讨论判别归类问题是有意义的. 

然后得出线性判别函 数为： 

Y!(X) = - 42. 2473 + 7. 6741^^ + 5. 5488X 2 
一 1 3. 963lX 3 + 1. 1813X 4 , 
y 2 (X) = - 5. 1627 + 2. 9311X! + 1 . 3570X, 
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— 5. 3738 X 3 + 0. 4558 X 4 . 

回判结果给出对来自 A 或 B 盆地的10个盐泉样品都判 对了； 
对8个待判样品判别的结果 为：第 2，3,6,7,8五个盐泉为含钾盐 
泉，其余三个不含钾，即为含钠盐泉. 

三、多总体的距离判别 

设有々个 m 元总 体： «>2)•它们的均值向量和 
协方差阵分别为 〆 Z (*' = 1，2,… 4) .对任给定的 w 元样品 X = 
(&，々，••• ， x „ y ，要判断它来自哪个总体. 

多个总体的情况，按距离最近的准则对 X 进行判别归类时，首 
先计算样品 X 到々个总体的马氏距离 〆 ( X ) (/ = 1，2，… j ) ，然后 
进行比较，把 X 判归距离最小的那个总体.设/=/时，若 
d ^ X ) = min { d '^ X }}, 

则 xeo t . 

计算马氏距离 4( X ) G ' = l ,2, …，幻时，类似地可考虑2, = 2： 2 
=—•=2* 或不全相等的两种情况，并用样本统计量作为//〃和 z 
的估计进行计算. 

§5.2 贝叶斯 ( Bayes ) 判别法及广义平方距离判别法 

距离判別只要求知道总体的特征量(即参数） 一- 均值和协方差 
阵，不涉及总体的分布类型.当参数未知时，就用样本均值和样本协 
方差阵来估计.距离判别方法简单，结论明确，是很实用的方法.但该 
方法也有 缺点： 一是该判别法与各总体出现的机会大小(先验概率） 
完全 无关; 二是判别方法没有考虑错判造成的损失，这是不合理的. 
贝叶斯判别法正是为解决这两方面问题而提出的判别方法. 

贝叶斯的统计思想总是假定对研究的对象已有一定的认识，常 
用先验概率分布来描述这种认识;然后抽取一个样本，用样本来修正 
已有的认识(先验概率分布），得到后验概率分布.各种统计推断都通 
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过后验概率分布来进行.将贝叶斯思想用于判别分析就得到贝叶斯 
判别法. 

在正态总体的假设下，按贝叶斯判别的思想，在错判造成的损失 
相等时得到的判别函数，其实就是马氏距离判别在考虑先验概率及 
协方差阵是否相等情况下的推广，故在 SAS / STAT 软件的 
DISCRIM 过程中称为广义平方距离判 别法. 

所谓判别方法，就是给出空间的一种 划分： D ~-={ D l , D 2 , 
-, D k ). 一种划分对应一种判别方法，不同的划分就是不同的判别 
方法.贝叶斯判别法也是给出空间的一种划分. 

一、 先验概率(先知知识） 

设有 A 个总体 G , G 2 ，…， G *. 假设事先对所研究的问题有一定 
的认识，这种认识常用先验概率来描述，即已知这々个总体各自出现 
的概率（验前概率）为仍，仍，…，(显然 9 i >0， w + g 2 + … + g * = l ). 
比如研究人群中得癌⑹)和没有得癌（6 2 )两类群体的问题，由长期 
经 验知: 9l = 0. 001， 仍 = 0.999 .这组验前概率 91 ，…， 9 * 称为先验概 
率. 

先验概率是一种权重（比例）.所谓“先验”是指先于我们抽取样 
品作判别分析之前.贝叶斯判别法要求给出 G _ = 1，2，"-， W 的值. 
9,的赋值方法有以下几种： 

(1) 利用历史资料及经验进行估计•例如某地区成年人中得癌 

def c[ef 

症的概率为 P (癌 ）= 0. 001 = ?1 ，而 P (无癌 ）= 0. 999 — q 2 . 

(2) 利用训练样本中各类样品占的比例《,/« 做为中 的值，即 
g , = n,/n ( z _ = 1，…，是），其中 w , ■是第，'类总体的样品数，而《 = 〜 + 〜 

这时要求训练样本是通过随机油样得到的，各类样品被抽到的 
机会大小就是验前概率. 

(3) 假定 gi = 92=^.. =9* = 1/々- 

二、 广义平方距离 


在马氏距离判别的基础上，进一步考虑先验概率及各组内协方 
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差阵的不问，定乂样品 X 到总体 G , (< = 1，..•，/^)的广义平 方距离 
A 2 ( X ) 或 D 2 ( X , G ,) 为: 

Df ( X ) = D 2 ( X , G ,) = - f - g t ( t ) + gz ( t )» 

其中 

gi(t) = ( ln l 5 < l * 若各组的协方差阵 2, 不全相等， 

… io ， 若各组的协方差阵全 相等； 

g 2 ( t ) = 2 ln |?,1, 若先验概率不全相等， 

’.'丄~ ^0, 若先验概率全相等， 

其中&为第 f 类的组内样本协方差阵•由以上公式可见，当400不 
变，而某个 A 大(即总体 G , 出现的机会大)时，则心 (0 变小，故广义 
平方距离 A 2 O 0 也变小，进而判； f 为 G , 的可能性大. 

利用广义平方距离的判别 法为： 

判 X 6 G ,， 当 Df ( X ) < JD 〗( X ) 时 （£ ^ t,i = 1，…，々). 

三、后验概率(条件概率） 

标准的贝叶斯判别法应该计算后验概率 分布. 即计算当样品 X 
已知时*，它属于 G , 的概率，记为尸 ( G ,| X )( 或尸 ( f | JO )， 这个概率作 
为判别归类的准则，其概率意义更为 直观. 假定总体 G , 的概率密度 
函数 ACr ) ( f = l ， …，々)给定，由条件概率的定义可以 导出: 

P { t \ X )= P{X 6 G,\X 已知 } = ^ /t(x) 

若假设 G , («' = 1，… ，々) 为正态总体，其密度函数/，(^)为 
/，.⑴ = (2 幻—， 名 r 1 〜 xp( - 0. 54⑴）， 

则 X 属于第 < 组的后验概 率为： 

exp (― o . 5 A 2 0)) 

i=l 

其中 Z >, 2 (^：) 是 X 到第；组的广义平方距离.采用后验概率的判别准 
则为 











186 第五章判别分析 


判叉 当尸 (£| X )〉_ P (/| X ) 时，£ = 1 ，…，々 ）• 

在正态假设下按后验概率最大进行归类的准则，等价于按广义 
平方距离最小准则进行归类.由下面的介绍将知道，按后验概率最大 
准则归类的判别法就是贝叶斯判别法的一种情况.一般地，贝叶斯判 
别法既考虑先验概率的不同，还考虑了错判损失的大小，在这里我们 
假定错判损失相等. 

四、贝叶斯判别准则 

所谓贝 叶斯判别准则 ，就是给出空间 IT 的一个 划分： D ={ D n 
d 2 , …， £>*}，使得当通过这个划分£»来判别归类时，所带来的平均损 
失达到最小. 

1. 错判概率和错判损失 

当样品 X e G , ，但用判别法 £) 判别归类时，却把 X 判归 G , (即 X 
落入区域 A ， 戶^)，即判错了，我们用山 )（ 或简记为/ >010) 
表示用判别法 D 把实属 G , 的样品错判为 G , 的概率.显然 

P { j \ i \ D }= j /.- Cxj , •- , x m ') dx l — Ax m 

D , 

=f /,( X)dX O ' ^ i ). (5.2.1) 

错判概率的估计方法有以下 几种： 

(1) 利用训练样本作为检验集，即用判别方法对已知类别的样 
品进行回判，统计判错的个数及占样品总数的比率，作为错判率的估 
计.此法得出的估计一般偏低. 

(2) 当训练样本足够大时，可留出一些已知类别的样品不参加 
建立判別准则，而是作为 检验集 ，并把错判的比率作为错判率的估 
计.此法当检验集较小时，估计的方差大. 

(3) 舍一法(或称交叉确认法），每次留出一个已知类别的样品， 
而用其余《 — 1个样品建立判别准则，然后对留出的这一个已知类别 
的样品进行判别归类.对训练样 本中〃 个样品按此法逐个归类后，最 
后把错判的比率作为错判率的估计. 
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以上三种估计方法的估计结果在 SAS / STAT 软件的 DISCRIM 
过程中都可以得到. ^ 

_用 L (■/卜乃)表示样品实属第 z . 个总体 G ,， 今用判别法乃判别时 

将其错判为属时所造成的 损失; 在不会引起混淆时，简记为 
Uj\i). . . 

，实际问题中，错判的损失可以给出定性的分析，但很难用数值 
来表示.但应用贝叶斯判别准则时，要求定量地给出 L 0 -| o ./.(/|/) 
的赋值法常用以下 两种： 

(1) 由经验人为赋值.例如 L (判癌 | 得肺结核）= 10 , Z (判肺结 
核 I 得癌症 ）=1 000. 

( 2 ) 假定各种错判损失都相等，即令 

lo, i = j ”• 

2. 关于先验概率的平均损失 

有了先验概率的概念后，判别法 D 关于先验概率的错判平均损 
失 公 (*0) 定义为 

k k k 

g(D) = ^q t r,(D), ( 5 . 2 . 2 ) 

其中 「,(£)) 表示实属 G , 样品被错判为其他总 1 本 1 的损失 • 

3. 什么是贝叶斯判别准则 

定义 5. 2 . 1 设有々 个总体： GmG ^， ...，(；*,相应的先验概率为 
9 i ’92’… ’ g * (9，>0, 91 +〜+办=1).如果有判别法 £)* ，使得 £>* 带 
来的平均损失 gCD *) 达最小 , gp 

g(D *) = min^(D), 

一切/> 

则称判别法 zr 符合贝叶斯判别准则，或称 zr 为贝叶斯判别的解. 

4 - 符合贝叶斯准则的判别法(贝叶斯判别的解） 

定理 5 . 2 . 1设有々个 总体： 6\，(7 2 ，...，6*，已知0,的联合密度 
函数为/,( X )，先验概率为= 1，…，々），错判损失为 ZXjU ) ，则贝 
叶斯判别的解 D ' = { D ; ，…， D ;} 为 

D ' = l < x \ h >(X) <hj(X),j ^t,j = 1 广 . ，是 } (t = 1 ， … ，々 ）, 
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其中 

k 

hj(X) = ^]q,L{j\i)fi{X), 

它表示把样品 X 判归 G , 的平均损失. 

证明由 （5. 2.1)、（5.2. 2) 和 （5. 2. 3) 式得： 


g ( D ')= g 9 ,|] L («| o | D ，/ ,( X)dX 


k c k 


(5. 2. 3) 


= 紅产(壞 • 

若 { A ，…是 M 771 上的任一种划分，则它带来的平均损失为 


于是 


g(D) = 



g(D*) -g(D) = 


tL ； ht(X)dx ~ 





^( X )] dX . 


由 £>• 的定义知，在 ZV 上恒有 WX )< A,(JSO ()=1，…，々），所以 


g ( D ') - g ( D )^0, 

即 g { D ') — min g ( D ). 

— 切 D 

由定义 5.2.1 知， zr 是贝叶斯判别 的解. （证毕) 

以上定理是贝叶斯判别法的基本 定理. 它给出了具体的判别方 
法：对样品 X ，分别计算々个 \( X ) ()= 1，…，々 ） ，选其最小者，即可 
判定样品来自相应的总体.当错判损失都相等时，判别方法还可以由 
以下的推论给出. 

推论 当 L (_/ I 0 = l —心时(即错判损失都相等），则贝叶斯判 
另 IJ 的解 zr = { AV "， A *} 为 

A * = 0 = 1广.，々）， 


(5. 2. 4) 
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其中 /,(/) 是 G , 的联合概率密度函数. 

证明由假设可知 

k 

h t ( x )= = ^2 q , f ,( X ) = C ( X ) 

» = 1 i^t 

k 

其中 C ( X ) = ^ q . LCX ) 为依赖 X 的数值. 

«=1 

由定理 5. 2.1， 可得 （5.2. 4) 式. （证毕) 

例 S.2. 1 试导出6 = 2时的贝叶斯判别的解. 

解由 （5. 2. 3) 式得 

hi(X) == 9 2 / 2 ( X ) L(l 12) ， h 2 (X) — qJ\(X 、 L{2 11 ) ， 

从而 

A = { X | 92 / 2 ( X ) L (1|2) < 9 l / 1 ( X ) L (2| l )}, 

D 2 = { X | 9 l / 1 ( X ) L (2|1) <<? 2 / z ( X ) L (1|2)}. 

若令判别函数为 


W(X)= 


MX ) 

MX )' 


q 2 L ( l \ Z ) 

9 1 L(2|D , 


则贝叶斯判别准则为 

ix e g ,, 若 w ( x )> 么 
lx e g 2 , 若 i ¥(; o 《山 
这与距离判别准则有相似的形式. 


(5. 2. 5) 


5. 正态总体的贝叶斯判别法 

设 G , 为正态总体，三)(;=1，…，/»，并假定错判损失相 
等，先验概率为 q”qi 

Hef 

(1) 当& = 2 2 =-= 二 一 2时，设总体 G , 的概率密度函数为 
/,( X )， 则 

q，MX) = (2 K ) J ^ exp {- |( X - //mX — 〆 '>)}， 
ln9 -/ l ( X ) = — ~^[ ln |2| + m ln (27 t ) + X' 

+1 叫 .一 音 W 2- V *.) 十 xn n 
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表 S .2 胃癌检验的生化指标值 


类别 

序号 

血清铜蛋白 

X x 

蓝色反应 

x 2 

尿吲哚乙酸 

x 3 

中性硫化物 

X, 

酉 


1 

228 

134 

20 

11 


湛 

2 

245 

134 

10 

40 


患 

3 

200 

167 

12 

27 



4 

170 

150 

7 

8 



5 

100 

167 

20 

14 



6 

225 

125 

7 

14 


委胃 

7 

130 

100 

6 

12 

非 

缩 J 

8 

150 

117 

7 

6 

性者 

9 

120 

133 

10 

26 

胃 


160 

100 

5 

10 

WS 


11 

185 

115 


'msm 

者 

胃 

12 

170 

125 


1 篇 


炎 

13 

165 

142 




患 

14 

135 

108 


12 



15 

100 

117 




注: X 3 , X t 是原始数据的100倍. 


/(211)表示又 <2> 到 Gi 的平方距离.若石= 2 2 ，则 
d l {2\\) = dK \\2)； 

但此例中协方差 阵及与 2 2 不等，因此 

rf 2 (2| l ) = 22. 1219, rf 2 (l |2) = 486. 03104. 

输出结果又给出三个总体间两两配对的组间广义平方距离，用 
记号 D 2 (2 1 1) 表示又 (2> 到 Q 的广义平方距离.此例中协方 差阵& 
与乏 2 不等，因此 D 2 (2 11) = 43. 06467, D 2 ( l | 2) = 498. 2681，且知 
Z) 2 (l |1) = 20. 9428 = ln |5!|. 

最后，输出结果给出回判的 结果： 三个类中15个样品都判对 
了； 判别矩阵汇总了判别归类的结果,并指出错判的比率为 0. 

§ 5. 3费希尔 ( Fisher ) 判别 

一、 费希尔判别的基本思想 

费希尔判别的基本思想是 投影. 将々组 m 元数据投影到某一个 
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方向，使得投影后组与组之间尽可能地 分开. 而衡量组与组之间是否 
分开的方法借助于一元方差分析的思想.利用方差分析的思想来导 
出判别函数，这个函数可以是线性的，也可以是很一般的函数.因线 
性判别函数在实际应用中最方便,本节仅讨论线性判别函数的导出. 
设从总体 G ( G = 1 ， … 4) 分别抽取 m 元样本 如下： 

■^(!) = (工 1 (1 < )，“*，工,匕 ) )'“ = 1，…， 々;!' = 1， 

令 a =( ai ，…， 〜)' 为 m 维空间的任一向量， u ( x 、= a ' X 为 X 向以 a 
为法线方向上的 投影. 上述々个组中的 w 元数据投影后为 

G 1: a'X 出，…， O 记又⑴=士 E ;， 


G *: 记 P ) = 

nk J =1 

每个总体的数据投影后均为一元数据.对这々组一元数齒进行一元 
方差分析，其组间平方和为 

k 

B 0 = ^n ( (a f X U) — a'X ) 2 

t=i 

r k 

=^2 n t ( X M - X ) ( X 0> — 

L t=l 」 

= a f Ba , 

其中又 ( °和 X 分别为 G , 的样本均值和总样本均值，并记 

/ =i >=i 

而 B 为组间离 差阵： 

k 

t=\ 

合并的组内平方和为 

S 2 ia ' X % - a ^ w ) 2 

t =1 >=1 
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= a Ts 2 ( X o ) - m 柯一 

L «=i >=1 」 

= a 1 Aa 9 


其中合并的组内离差阵(或称交叉乘积阵为 

= E E - -:又 0) v_ 

因此，若々个总体/类)的均值有显著差异，则比值 


a ! Ba 
a ' Aa 


def 


— A ( a ) 


应充分大.利用方差分析的思想，此问题化为求投影方向 a ， 使 4( a ) 
达极大值.显然使 4( a ) 达极大的解 a 不唯 一. 若 a 使 4( a ) 达极大， 
则& ( C 是任意不为零常数）也使 △( • )达极大，故对 a 附加一约 
束条件，即选取〜使因此，问题又化为求 a ， 使 = 
VBa 在 a ' Aa = \ 条件下达极大. 


二、线性判别函数的求法 


已知 a 是在 a , Aa = l 条件下使达极大的方向，称 
uOO = a，X 为线性判别函数. 以下利用拉格朗日乘子法来求条件极 
值问题的解.令 

< p ( a ) = a 1 Ba 一 X { a f Aa — 1) ， 

解方程组 


d<p 

da 

d<p 


= 2(5 — Ai4)a = 
=1 — a ! Aa = 0. 


0, 


(5. 3. 1) 


由方程组 (5. 3.1) 的第一式可知，/1是4-\6的特征根，《是相应的 
特征向量，且可以证明 A =^( a ). 事实上 ，由说 两边左乘， 
得 A ( a ) = a'Ba — Aa'Aa = A . 

因此，以上条件极值问题化为求 A - l B 的最大特征值和相应特 
征向量问题. 

设 A ~ l B 的非零特征值为相应的满足约束 
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条件的特征向量为，…乂，取 a = A 时可使 AU ) 达最大，且最大 
值为 △&) 的大小可衡量判别函数 uOOa ' X 的判别效果，故称 
△ ( a ) 为判别 效率. 综上所述得如下结论. 

结论1 在费希尔准则下，线性判别函数 uUO = a ' X 的解 a ， 
即为特征方程 | A -— AJ |=0 的最大特征根所对应的满足 
/ U/i = l 的特征向量 M 且相应的判别效率 A . 

在有些问题中，仅用一个线性判别函数不能很好地区分 A 个总 
体，这时可用第二大特征值 A 2 ，它所对应的满足44/ 2 = 1的特征向量 
4,建立第二个线性判函数/[ X ;如还不够，还可建立第三个线性判别 
函数依次类推. 

定义 5. 3. 1 设 A ~ l B 的非零特征值为…>々>0,其相 
应的满足约束条件的特征向量为，/ 2 ,…，匕，称 

为线性判别函数 Ui ( X )= l[X 的判别 能力; 称 

• P «) = (A + …+ \)/ 习 A , 

为前 Z 个《<幻线性判别函数… ，叫 ( X)=<X 的累计 

判别能力. 


三、费希尔判别准则 

设 A - l B 的非零特征值为其相应特征向量 
为 1”“ ，， … ， l r (r < min(w ，是 一 1)). 

1. 判别准则 I (r=l 情况） 

如果只有一个判别函 数 〆 ; 0=/' X , 它将 w 元数据投影到一维 
直线上.例如々= 2情况，线性判别函数只有一个. 

例 S .3.1 若々 = 2,试求费希尔线性判别函数及其相应的判别 
效率. 

解 当々= 2时，两总体的组间离差阵 S 为 
B = n,(X a, - X ) a a, -XY + n 2 ( X (2) - X )( X (2> - X )', 
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利用 可得 

B = - ^ 2 (X (1) - X( 2 ))(X ⑴一 X (2) V. (5.3.2) 

n x + n 2 

合并的组内离差阵乂为 A = ，其中 

A = 2 ( 柯 -- x (t >y <J = 1,2). 

»'=1 

由于 5 的秩为1，故特征方程— AJ|=0 的非零特征根只有一 
个.事实上，因为 

A~ l B = -~— A ~ l ( X w - X m )( X n, - x m y , 

n-i + n 2 

利用线性代数有关 结论： AS 和54的非零特征根相同知， yrw 的 
非零特征根等同于 

--f- ( 又⑴ 一 x w yA~ l (x w - x (2) ) = n ' n2 d\ 

十 w 2 n x + n 2 

(5. 3. 3) 

其中 

d 2 = ( x (1) - ⑴一 x i2> ). 

(5. 3. 3) 式为一个数值，它就是欲求的特征根 A •记 Z 为对应于/I的在 
条件 l ' Al = l 下的特征向量，它满足 Bl = XAl , W ^ 

(X (1) 一 x m )(x a) - x m yi 

n x + n 2 

= ” 1 : 2 ( X <n - X ⑵） 'A—UX ⑴一 X (2, > - Al . 

n x + n 2 

若取，不难看出它满足以上方程，且厂 A/ = l. 
于是得费希尔线性判别函数为 

u { X ) = ^ jX ' A -^ X ^ - X m ), 

a 

其相应的判别效率为 

△(/) = - WlW - 2 - (X n> 一 X m )' A ~ x ( X a) - X m ), 
n x + n 2 

这里线性判别系数/与两总体间的马氏距离判别法的线性判别系数 
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x (2 o 相差一个倍数.注意这里 


«，+ « 2 - 2 

下面以 k = Z 为例来导出按距离准则判断样品归类的判别法.设 
两总体的样本均值为 X ⑴ ，又⑵ ，则线性判别函数值为 
u m = rx n> , u (2> = rx m . 

在 § 5 . l 曾介绍过两种阈值点 g 和，，这两种都可以用来决定阈值 
点反和在这里 

« = + l ' X w ) = j -/' ( X ⑴ + X ⑵)， (5.3.4) 

(5-3. 4 )式适用于投影后两总体的方差相等的情况.若方差不等，记 

u % — Z’O (t = 1 »2 j/' = 1 ,••• ,n t ) , 

投影后总体 G , U =； t ,2) 的样本方差为 

,lt 1 1=1 


= f / A 卜叫. 
这时阈值点 〆 为 


判别准则为(不妨设 l ' X m > l ' X m ) 

[ 判 xeG 】， 当 《(; o > 只或 《*); 
j 判 xec 2 ， 当 《(； o (或 《*); 
I 待判， 当《(义） = 5( 或 M * ). 


2. 判别准则 I ( r > l 情况） 

先取判别效率最大(记为々）的线性判别函数 A 个 
总体的均值向量在 A 上的投影为 u ^= l \ X U) G = l ， …，々）.对样品 
X = Cn ， …， _ r m ) '，计算它在上 投影： Ml ( X )=/； X . 若存在唯一的 
使 
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| Ml ( X ) -«；'>>! . | Ml ( X ) - 

- ： -= mm -:- 

在 I 、 <=!,•••,* <Jt 

时，判 XGG ir 如果存在 j 个总体 G s ，…， G 4 , 0>1)，使其与 Mi ( X ) 
距离相等且为最小，记序号集 A ，…, U ， 则再取判别效率为々 
(次大)的判别函数 《 2 ( x )=< x , 当存在唯一的*_ 2 ,使 
lu 2 ( X )- u^l . lu 2 ( X )- u ( 2 l> l 

- 1 - = min : 

^«2 t^L o t 

时，则判 xec , 2 ，其中 uT = i [ x w . 如果第二个判别函数仍不能判别 
样品 x 所属总体，则还可以取第三个线性判别函数，依此类推.这个 
准则借用了序贯判别的 思想. 

3. 判别准则 B 

如果有 r 个非零特征根 ( l < r < m )， 相应的有 r 个线性判别函数 
^(；0，一，《/；0.这时相当于把原来 m 个变量综合成 r 个新变量. 
在实用中常取 Z < r ， 且满足认+…+义^/认十… + A , + … + A r )> 
尸。(一般取尸。>0. 7) .这样 w 元总体的判别问题即 化为/ 元总体的 
判别问题，一般地新变量个数比原变量个数减少了 • 由于特征向量线 
性无关，故/个新变量互不相关.然后对/元数据按§ 5 . 1的距离判 
别准则来进行判别归类. 

例 S . 3. 2 试对表 5. 2中胃癌检验的生化指标值用费希尔判别 
的方法进行判别归类. 

解首先使用典型判别 ( CANDISC ) 过程，由第十章将介绍的典 
型相关分析方法求出两个典型变量(即^00和 « 2 ( X ))： 

M ,( X ) = 0. OlOOXi + O . 04018 X 2 +0.1764 X 3 + 0. 03055 X 4 , 
M 2 ( X ) = —0. 003880 X )-0. 05462 X 2 +0.1600 X 3 +0. 06206 X 4 . 
然后计算典型变量的得分，也就是用中心化后的观测数据代入 
以上和 m 2 ( X ) 的关系式中所得到 的值. 如果绘制第一和第二 
典型变量得分的散布图，还可以直观地看出，这三个类基本上是能够 
分开的，特别是第1类与其他两类 • 

接着调用判别归类 ( DISCRIM ) 过程，由典型判别方法产生的两 
个典型变量的得分(这时把4元总体简化为2元总体)进行判别归 
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类.首先给出用两个典型变量得分进行判别归类时计算的两两配对 
的组间距离及均值差异的显著性检验的结果•记'> G _ = l ,2,3) 为变 
换后第/个2元总体的均值向量，如检验的，= 
0. 00190= 0. 05;检验 Hl 13) : v (1) = i / 3) 的 p = 0. 0010< a =0. 05;检 
验 H ( 0 23} : v ( 2) = v ⑶的/ > = 0. 3231>«=0. 05. 这表明变换后第1类与 
第2和第3类之间有显著性差异，而第2类与第3类之间的差异就 
不显著.接着给出用费希尔判别方法对15个观测进行判别的结果， 
从输出中可以看到判错的个数为3个(把原属于第1类的第4号观 
测判归为第3 类; 把原属于第2类的第8号观测判归为第3 类; 把原 
属于第3类的第11号观测判归为第2类). 

如果假定三个类的协方差阵不等，由 DISCRIM 过程对15个观 
测进行判别的结果为错判了两个(即第8号和第11号观测). 


§5.4 判别效果的检验及各变量 
判别能力的检验 

以上几节介绍的判别准则，都是根据已知观测值(即训练样本）， 
建立判别函数，并由判别函数给出空间 l m 的一个划分 ZK 即判别 
法).建立在样本基础上的判别法则，其判别能力显然与样本是否来 
自不同的总体 有关; 也与所考察的 m 个判别指标变量是否能区分々 
个不同的总体(组)有关. 

假设总体 G , 的分布为 0 = 1，2,…， A ), 

…， A;i = l ,2,…， n ,) 为来自 G , 的元样本. 

— 、两总体判别效果的检验 


先考虑 k = 2 的简单情况.所谓判别效果的检验，就是检验两总 
体的均值是否有显著性差异.一般我们提出的原假设 H 。 为两总体 
的均值是相等的.如果 H 。 被否定，则说明两个总体 G 和 G 2 确实可 
以区分，建立的判别准则是有意义的.如果 H 。 不能被拒绝，说明两 
个总体均值的差异不显著，此时来讨论判别分析是自欺欺人，毫无意 
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义，除非考虑其他新的判别 变量. 

假设 G , 为 N (^ n , S ) (i = 1,2) •检验两总体的均值是否有显著 
性差异（即检验 H 。： ，根据第三章的结论，首先计算两 

总体样本均值 X ⑴与 X (2) 之间的马氏距离 dHl ,2)： 

d z a ,2) = ( x ⑴一 x w ys ^ a a) - x m ), 

其中 S 是合并样本协方差阵.然后，由马氏距离 rf 2 构造检验统计量 
—— F 统 计量： 

十 n 2 )\n l 十 w 2 — 

其中 n , 是第 i 个总体的样品个数 (/ = 1，2). 在两总体均值相等的假 
设成立下， F 统计量服从分子自由度为 m , 而分母自由度为 nx + n 2 - 
m — 1的 F 分布.利用样本可计算 F 统计量的值，由该值还可求出显 
著性概率值（/>值).若/>值小于给定的显著性水平《 (常取《 = 
0. 05), 则否定两总体的均值向量是相等的假设，即对这两总体讨论 
判别问题是有意义的.若/>值大于等于给定的显著性水平 a , 则两总 
体的均值没有显著性的差异.这时讨论两总体的判别问题是没有意 
义的.如果盲目地应用以上介绍的方法进行判别归类，则错判的机会 
将很大. 

二、々个总体判别效果的检验(々>2) 

当 k >2 时，判别效果的检验问题包括以下两 方面： 首先检验々 
个类的均值向量是否全都相等(即检验只。 ： 

若不全相等，则进一步对丨个总体两两配对，然后逐对检验这两个总 
体的均值是否有显著差异(检验也就是检验 
这两总体的判别效果是否显著.具体方法仍是通过计算各总体间的 
马氏距离及 F 统计量，并利用/>值的大小来判断其判别效果. 

1. 检验"⑴= 〆 《 = —= 〆 *) 

def 

假设々个总体的协方差阵相同：名二各二…二厶一 z 根据第 
三章多元方差分析的方法.我们把样本的总离差阵了分 解为： 



§5.4 判别效果的检验及各变量判别能力的检验 201 


k n t 

T = S S - ^)(^0) -xy ^A + B , (5.4.1) 

t=l )=1 

其中 

k k n t 

a = T i a -= SE (^ Eo - n ; — x^y (5.4.2) 
称为合并组内离差阵， 

b = ^ n ,( x a> - x )( x (i) - xy 

称为组间离差阵. 

利用似然比原则可导出检验//。的似然比统计量 

A = ... 1 ^1 = 1 A 1 

■ \A + B \ - \ T \- 

根据 A 分布的定义，可知(记 n =7^+712 +… + w *) 

| A 丨 H 0 T 

= |乂 _l_ B 丨 一 A{m^n — k — 1). 

给定显著性水平《，查威尔克斯分布临界值表，可得 / U ， 使 

P { A ^ X a } = «, 

故否定域 { A < A „}. 当々= 2或3时，可把 d 分布转化为 F 分布， 
更一般地情况可用; t 2 分布或 F 分布来近似，即由 A 函数的近似分 
布进行检验(见参考文献 [1] 或 [2]). 


2. 分别检验 // P : 广 

把是个总体两两配对，逐对检验，辨明各对的判别效果.具体方 
法同小节一“两总体判别效果的检验”.计算中作了如下处理（假定 

(Jgf 

F = n — k — m + \ n-rij 2 
ii= m(n-k )^ '. + nf'” 

其中 


4 = ( x w - x ^ ys - 1 ^ 0 - x ^>), 

〜( o ，(i + iW ， 

(w — k)S = 4 + A 2 + … + A* 〜 W m (n — k yS '), 
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三、各变置判别能力的检验 

当检验々个类的均值向量是否全都相等(即检验 H 。： 

时，若否定假设(即表明々个总体的均值向量之间有 
显著性差异），也并不能保证其各分量的均值向量有显著差异•若第 
i 个分量间没有显著差异时，说明相应的变量 X ,对判别分类不起作 
用，应该剔除.关于各变量判别能力的检验问题是筛选判别变量的理 
论基础，也是下面介绍逐步判别的理论依据. 


1. 变量判别能力的度置 

以上检验 H 。： / / 1) = // 2) =-"=， ) 时，引入检验统计量 
• A ( m ) = 

，的值越小，表明 m 个指标(变量)对々个总体的判别效果越好•用 
附录中§ 9介绍的消去变换法可以求行列式 的值： 


a u … a lm 




U 公）… 


a n • 


( 1 ) 

^11^22 … a mm ， 


其中(记 ％ = 


(i-2) Ct-2) 

【广 1 〉 = 4_ 2) — 么 —« = 2,3,…， m ). 

a ( f-i )( i _- i ) 
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类似地有171 .所以 


a |A| a n a lZt 




以上行列式的计算是按自然顺序做消去 变换. 由消去变换的性质可 
知，亦可不按自然顺序进行.设(^，*' 2 ，…上 ) 是（1，2，_..，；„)的任一排 
列，第是次以 (**“_*) 为主元做消去变换01 = 1，2,…， m )， 于 是有: 


〜 , C C def 

- 77 T~ • • • ~ •, - : ~ ==^= 


/ l ( m ) 的大小可以用来度量 77 Z 个指标 X ,， X 2 ，…，对々 个总体的判 
别效果，^ ㈤ 越小 ，判别效果越好. 

如果只考虑 m —\ 个变量，不妨设为，则 


A \ Am -\ I a il a Z 2 a ( m - 

I -= we 


(m-2) 

(»i —l)(m—1) 

(m —2) ~~~ 

(m 一 1)( ot —1) 


(1，2* —，《 — 1) • 


(1，2 •…， m —1) . ( m — 1) ， 


L’m l(l ， ”. ， m-l) = ( m —i) ’ 

[mm 

并称它为给定足，义 2 ，.. •，兄 时，变量的判别能力，它是变量 
X „ 判别能力的一个度量.它的值愈小，变量的判别能力越强.在 
以上记号下，有递推公式： 

类似地，可定义变 量足判 别能力的度量 
w ) ，且 

^(1.2.*** ,m) "(l，“ •，’一 * U i j (1，.“ ， 〆 一 1 ,f+l ，••• , m ) • 

变量判别能力的度量采甩删去该变量后考察别能力的变化，若变 
化小表示该变量对区分< 个总体不起作用，否则该变量对区分々个 
总体是重要的. 
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2. 变量判别能力的检验(附加信息检验） 

若已知 r 个变量兄彳，…，;^ ( r <;« ) 对々个总体的判别效果显 
著.相应的度量这 r 个变量判别能力的统计量为 


在此基础上考虑添加另一变量 x v + i 后，对应的 {/ 统计量为 


其中 


^- r+1 | = 


a 


(r) 

V + iV+i 



表示在已引入 r 个变量 X 、，". 之后，再添加足, +1 对 [/ 统计量的 
影响.为检验对々个总体的判别效果能否提供附加信息（即它 
新提供的信息是否被包含在兄，，…提供的信息之中）需作统计 
检验. 

请注意，这时不是简单地检验 H 。： Y …=/4二,（即々 
个均值向量的第 L +1 个分量是否相等).而是首先要从 X v +1 中将兄,， 
…，；^提供的信息扣除，再检验扣除后的均值向量是否相等.这里 
需要利用条件均值的概念.令 


凡出1 (*•〆••、> 




K - 


(t = 1 ， 2,… ，是 ; j = 1 ， 2,… ， a ) ， 

其中叉€(«=1，2,… ， r+l) 表示第 〖个 总体 G : 中第个样品 = 
( xf ，… M ， xf ， …， X =) 的第“个分量.附加信息的检验是 

H 。： = Cl(v....， r > = …=^1+11 

(5. 4. 3) 

在总体为正态分布假设 r ，因正态分布的条件分布仍为正态分布，因 
此检验 （5. 4. 3) 式仍可以用威尔克斯统 计量. 由第二章§ 2. 3定理 
2. 3. 2,不难证明， （5. 4. 3) 式的似然比统计量为 

^(r) 

〜(.，，…，■广舞 如， <5.4.4) 

l r+lV+l 


可以证明: 
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fA.r”.，、） = A(r) 〜 A(r 9 n 一々，々一 1 )， 


〜 1 ， …，“ 1 ) = Ar+i) 〜 A(r + l»n — k,k — 1), 
def 

l(*i，•••，〜） === 4* r+1 1w 〜 Mlyn — k — r,k — 1). 


利用 4 统计量与 F 统计量的关系，有 


F 


k - r 1 一 (•〆••，《”) %下 


k - 1 




1 1 “1，…， 1 


F(k — I ,n — k — r). 


利用 F 统计量对假设 H 。 作统计 检验： 若否定 //。， 表示变量 X, r+i 
对走个总体的判别能力是显著的（在显著性水平《 下）； 否则，变量 
X , + ，对々个总体的区分不能提供附加信息，这个变量应剔除. 

r+1 


§5.5 逐步判别 

一、 逐步判别法的基本思想 

前面我们讨论了用全部 w 个变量 XwX 2 ，…， x m 来建立判别函 
数，用以对样品进行判别归类的几种方法.在这个变量中，有的变 
量对区分々个总体的判别能力可能很强，有的可能很微弱.如果不加 
区别地把 m 个变量全部用来建立判别函数，必然增加大量的计算， 
还可能因为变量间的相关性引起计算上的困难(病态或退化等)及计 
算精度的降低.另一方面由于一些对 区分々 个总体的判别能力很小 
的变量的引入，产生干扰，致使建立的判别函数不稳定，反而影响判 
别效果，因此自然提出一个变量的选择问题.即如何从;《个变量中 
挑选出对区分 A 个总体有显著判别能力的变量，来建立判别函数，用 
以判別归类. 

类似于回归分析，判别分析的变量选择方法也有向前法、后退法 
和逐步筛选法.这里仅介绍逐步筛选法. 

逐步判别的基本思想和逐步回归是类似的.逐个引入变量，每次 
把一个判别能力最强的变量引入判别式，每引入一个新变量，对判别 
式中的老变量逐个进行检验，如其判别能力因新变量的引入而变得 
不显著，应把它从判别式中剔除.这种通过逐步筛选变量使得建立的 
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判别函数中仅保留判别能力显著的变量的方法，就是 逐步判别法. 

二、逐步筛选变量的基本步骤 

记合并组内离差阵4=(%)，总离差阵: r =(~)， A,r 的定义 
见 （5. 4. 1) 和 （5. 4. 2) 式. 

1. 可否引人变量进人判别式 

(1) 考察变量 X , 0 = 1，…，讲)对々个总体的判别能力（此时判 
别式中变量个数/-=0).变量 X ,的判断能力为 

Y (* = 1 .•- , 

设 Uu ) 二 min U(i). 

(2) 检验々个总体的判别效果是否显著，即 检验： 

札： ",(;) = … 

其中为总体 G 的均值向量的第^个分量.在 H 。 成立时 

U (,) ~ A(1 ,n 一 k ,k — 1 )， 

由可构造检验统计量 

F _ 1 — Un — k 一 f 'Vi ~ a i 1 - 1 n — k 
U (i '、 k — l a ,.。 k — \ 

H 0 下 

— F(k —— 1 ,n ― k). 

对给定的显著性水平 «=0. 05, 按传统的检验方法，可查 F 分布临界 
值表得 F .， 使 P { F > F „}=«. 比较由样本值计算得到的 F 值及临界 
值匕.若 F<F。 时表明判别能力“最强”的变量兄，对々个总体判别 
效果并不显著，逐步筛选变量的过程停止，这时所考察的 W 个变量 
不能区分々个总体，应考虑引入新变量. 

若，把变量 X ,,引入判别式，并对矩阵了做消去 变换： 
A ⑴= 7^(/1) ， T u, = T it (T). 

利用统计软件进行检验时(以后我们均采用此种方法描述统计检验 
的步骤），首先由样本值计算得到的 F 统计量的值/，并计算/>值： 
p = P{F ^ f ) (其中 F 〜尸 (々 一 1 ，n — 走 ））. 
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若户，则//。相容，没有变量 引入; 若/><«，则把变量入判别 
式，并对矩阵做消去变换. 


2. 考虑能否剔除变量的步骤 

设判别式中已有变量 X ,, ，兄 2 ，…, X ,。 （ r > 1 ) .矩阵 A ， T 经若干 
次消去变换后化为 

(1) 计算判别式中变量在其余 r 一 1个变量给定时的判别能 
力（即威尔克斯统计量)•记 

def 


"i)l(r-l) 







(j = 1 ，… ，r) ， 


Ui \ (r ~i)= max Ui \Cr~l)^ 

>=1.—»r 1 

(2) 检验在其余 r -1 个变量给定时对々个总体的判别效果 
是否显著，即检验 


^0 ： ^J(r-l) = ^\<.r-l) = 



在 H 。 成立时威尔克斯统计量 


"» 0 |(r-i) 〜 * A ( l，w — k — r + 1 ,k — 1)， 


由 U » 0 |^- i ) 可构造统计量 

1 — "'ol 卜 1 > n — (r — 1)— 是 

^. 0 |( r - l ) k — \ 

^ F(k - \,n - k - r + 

对给定的显著性水平 «=0. 05,首先由观测样本计算 F 统计量的值 
/，并计算/>值: 

p = P{F^f) (其中 F 〜/•’(々 一 1，” 一 々 一 r + 1)). 

若/><«，则否定 H 。， 表明判别能力“最弱”的变量 X ,。对 A 个总体判 
别效果都是显著的，不能剔除，转入考虑可否引入新变量的 步骤; 若 
，则 H 。 相容，表明因新变量的引入使判别式中原有的变量兄。 
变为不能提供附加信息（即判别效果不显著），应剔除 X ,。，并对 
^>， r w 做消去 变换： 
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A (r+1) = T fo ( A ( r ) ), T (r+1) = T lQ ( T (r) ), 

然后再继续考虑能否再剔除变量. 

3. 考虑能否引人新变量的步骤 

设判别式中已有 r 个变量 X ,, ，兄 2 ，… ， X , V ，考虑能否从其余 w — 
r 个变量心 ， X , 2 ，…中选出在给定， X , 2 ，…，；^的条件下， 
其判别效果显著的变量. 

(1) 对不在判别式中的变量 '，足 2 ，"*，足_计算在兄,，足 2 , 
…， X 、 给定时的判别能力（威尔克斯统计量).的威尔克斯统计 
量为 


O = 1，…， m — r ) ， 


设 ％。1卜 ) = min 

a=l, … ,m—r 

(2) 检验 H 。： ^ = 
斯统计量 


= 4 *iw * H ° 成立时威尔克 


Uj o | (r) ~ il(l ^ 一 r ,k — 1 )， 

由可构造统计量 

” 1 一 Uj 。!<>•) n —— k —— r H o 下 ！71 /, , , 、 

F = — t~. - - -:— -- - F(k — 1 ,n — k — r). 

U J 0 \(r) k ~ i 

对给定的显著性水平《，首先由观测样本计算 F 统计量的值/，并计 
算/>值： 

p = P { F ^ f ) (其中 F 〜 F (々一 1，”一是 一 r )). 

若户>«，则//。相容，变量 X ,。 不能引入判别式，筛选变量的过程结 
束; 若/则把变量 X ,。引入判别式，并对矩阵 A W ， T W 做消去变 
换： 

A (r+1) = r j0 (A (r> ), T <r+I) = T ； 0 (T W ), 

然后转入考虑能否剔除老变量的步骤. 


三、逐步判别的计算方法 

设样本 xg =( a :);) , x %\-, x%y o = 1 ，…，々 1 ， 2 ，…， 《,), 
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记 w = « i + n 2 + ** - + nt . 

1. 准备工作 

(1) 计算各总体(类）的样本均值0=1，… j ) 和总样本均 
值 X . 

(2) 计算样本的合并组内离差阵和总离差阵： T . 

(3) 规定显著性水平 a (如 a =0. 05). 

2. 逐步筛选变置 

假设已计算了 L 步 a >0), 在判别式中选入了 L 个变量（用 L 
表示入选变量的个数，且表示入选变量的集合，如 L ={ i M —, r L })； 
合并组内离差阵 A 和总离差阵 T 经若干次消去变换化为 , T a \ 
(1) 计算所有变量的判别能力0 = 1,2,-，^)： 



r 4 L) 

def 


当 ?• 





^r|(L) y 

eL , 

u (0 = ^ 

! *^ii 

4 L, 

def 


当 z. 





^i|(L-i) y 

6 L , 

max{/ f |a-D ， 

i€：L 

t/； 0 |(L)=min C/.ja). 



设 f/i 0 |(L-i) = max{/ 1 |( i - 1 ) , Uj o \( L) = xmnU,\ (L) . 

i 云 l 

(2) 为检验 X ,。 可否从判别式中剔除，计算检验统计量 

p = 1 - w — (L — 1) —々 
1 "， 0 | a - i ) 是 — 1 

a Vo — €之 n — L - k + 1 

k- 1 

Vo 

的值;再由得到的心统计量值/,计算/>值： 

P ~ ^ {F \ ^ fi) (其中 & 〜 F、k — l，w — k — L + 1)), 

若/><«，不能剔除，转入考虑可否引入新变量的步骤 （3); 若 p > a , 
应剔除'，记 r = 并转到步骤 (4). 

(3) 为检验。可否引入判别式，计算检验统计量 

_ 1 — Ui \ (L) 的 — T — h 


丄一 n — L — k 

^> 0 ( a > k — I 

d — a tl n - k-L 

a Vo k ~ 1 
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的值; 再由得到的仏统计量值/ 2 计算 力值： 

p = p { f 2 >/ 2 } (其中 f 2 〜一 i ，” 一 是 一 l )). 

若 />< a ，则把 X ;。引入判别式，记 r = j '。， 转入步骤 (4); 若没有 
变量可引入，逐步筛选变量的过程结束.转入进行判别归类 • 

(4) 计算当前变量的威尔克斯统计量，并对，了 W 做消去 

变换： 广 

当 X r 为入选变量时(即 X r = x ；0 ), Ua + v = Ua ^^ 

当 X 为剔除变量时(即 X r = X , 0 ), t / a - D = t / a .^ I ； 

对乂山和: T a ) 同时做以 ( r ， r ) 为主元的消去变换： 

A a+l> = T r ( A a ) ) ， T <r+1) = T r ( T a> ). 

具体变换公式请见附录中 § 9 的有关部分 • 

(5) 重复步骤 （1) 〜（4)，直到判别式中没有变董可剔除，且不在 
判别式中的变量也没有可引入时，逐步筛选变量的计算过程结束 • 

3. 判别归类 

设逐步筛选变量的过程结束后，了变为 A ( i > 和了山;选入判 
别式的变量有 i 个，即 X ,，兄 2 ,… ，兄 r 接着对选出的判别能力强的 
L 个变量，使用前几节介绍的各种方法(如距离判别准则，贝叶斯判 
别准则等)来建立判别函数并给出判别 准则. 如果按正态总体下的贝 
叶斯判别准则，由当前的矩阵4 (/ ->和 r <L) 可以很方便的计算出判别函 
数，给出判别准则，并检验这 l 个变量对々个总体的判别效果. 

例 S . 5. 1 (胃癌的 鉴别〉 对表 5 . 2的病例资料，试用逐步判别 
方法建立判别准则，并对 I 5 个样品进行判别归类 • 

解利用 SAS / STAT 软件中的逐步判别 ( STEPDISC ) 过程逐 
步筛选变量，然后利用 DISCRIM 过程进行判别归类 • 

STEPDISC 过程用于筛选对区分々个类能力强的变量集.使用 
中常要求 ： （1) 指定筛选变量的方法，如逐步筛选法； （2) 规定引入 
变量到判别式和剔除变量的显著性水平 a ， 默认值均为 0. 15; ( 3 )规 
定最终判别式中变量 个数； U ) 规定筛选过程的最大步数. 

逐步筛选变量的第一步，首先给出各个变量对于区分 3 个类的 
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偏 R 2 , F 统计量及值，户值最小者 (0. 0060) 即最能区分3个类的 
变量，其中 X 2 第一个被引入判 別式; 然后由多元统计量给出此时判 
别式中这些变量的判别效果.逐步筛选变量的第二、第三步输出的结 
果同第一步类似. 

用逐步筛选法选出的两个变量叉 2 和；来建立判别准则，并给 
出回判结果.在回判结果中我们看到，只有两个病例判错了，即把来 
自第2类的第6号观测判为第3 类; 把来自第3类的第15号观测判 
为第2类. 

习题五 


5-1 已知总体 G;(w = l ) 的分布为(£ = 1，2)，按距 
离判别准则为(不妨设 ^ a) >// <2) > 

(x 6 Gi . 若 ： r > 〆 ， 

lx G G 2 -若工 < 〆 ， 

其中， ⑴ .试求错判概率 P (2| l ) 和尸 (1|2). 


<Ti+<T 2 

5-2 设三个总体 G \， G 2 和 G 3 的分布分 别为： iV (2,0. 5 2 ), 
腳，2 2 )和 AK 3，1 2 ) .试问样品 i =2. 5应判归哪一类？ 

(1) 按距离判别 准则； 

(2) 按贝叶斯判别准则(取 <71=92=93 = 士， K ) U )= 匕，二)) . 
5-3 设总体 G , 的均值为， G =1,2), 同协方差阵为2.记 




+ a ' 〆 2 )) (其中 a = ■2 _1 (" ⑴一// <2> )), 


试 证明： 

(1) EC^XIG,)^; 

(2) E ( a ' X \ G 2 )</ i . 

5-4 设有两个正态总体 Gi 和 G 2 , 已知 (m = 2) 
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( 1 ) — 





" 20 " 

-25- 


^1 = 


"18 

-12 


12 

32」 


， ^2 


20 
L - 7 


- 7" 

5- 


先验概率而1(2丨1) = 10, L (112) = 75 .试问样品 


X 


( 1 ) = 


" 20 ' 

- 20 - 


及 



"15" 

- 20 - 


各应判归哪一类？ 

(1) 按费希尔判别准则； 

I — 「18 121\ 

(2) 按贝叶斯判别准则1假疋 ^2 = -2 i = [ 12 32 J ] ； 

(3) 已知样品 x = (20,20)' ， 试计算后验概率尸 ( G , l * r ) (i = lj 


2 ). 

5-5 已知 X(-)(i = l ,2； £=1 ，…， 《,) 为来自 G , 的样本•记 
d = X (1) - X (2 \ 

其中 = 士20- = 1>2)； 

t 


试 证明： a = S — U 又⑴ 一 又 (2> )使比值 U ' d / WSfl 达最大值，且最大 
值为马氏距离£» 2 (其中 r > 2 =( x ⑴一⑴一 x ( 2> ) )• 

5-6 在两个元正态总体 ，_ S ) G = l ，2) 下，设 〆 ”， 
// 2) ，2均为已知.又设线性判别函数为 

W ( X ) = (X - -"⑵)， g =音(戶⑴ + 广)， 


判别准 则为： 

| 判 xec ” 当 w ( x )> o ， 

1判 xgg 2 ， 当 w ( x )< o . 

试求错判概率尸(2|1)和 P ( l |2). 

5-7 已知两个总体的分布为 N P ^ a \ I ) 0 = 1,2). 又设，， 
m (2) , 2 均为已知，先验概率为 W 和9 2 (91 +? 2 = 1)，错判损失为 
L ( l |2) 和 L (2 1 1). 试写出贝叶斯判别准则和距离判别准则，并说明 
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它们之间的关系. 


5-8 用逐步判别法选择判别变量的过程中（已知训练样本总容 
量„ = 30 4 = 3,考察的变量个数成= 4 ).已知在第一步引入变量 X 3 
后合并组内离差阵 Z 和总离差阵: T 分别化为 


A ⑴ = 了 3 ⑷= 


T (1) -T 3 (T) = 


"28571. 5 
683.4 
1. 123 

- 9464. 3 
"28884. 9 

671. 2 
1. 172 

- 9233. 8 


683.4 
114.9 
0. 519 
1230.0 
671. 2 
148. 3 
0. 347 
1877.6 


一 1. 123 
-0.519 
0. 0027 
— 3. 845 
-1. 172 
-0. 347 
0. 0018 



9464. 3 " 
1230.0 
3. 845 
15375. 8 - 


9233.8 ' 
1877. 6 
0. 508 


试问下一步可否引入变量？引哪一个？ 

5-9 设在某地区抽取了 14块岩石标本，其中7块含矿，7块不 
含矿.对每块岩石测定了 Cu ， Ag ， Bi 三种化学成分的含量，得到的数 


据如表 5. 3. 


表 S .3 岩石化学成分的含置数据 


类型 

序号 

Cu 

Ag 

Bi 





■ 


1 

2.58 

0. 90 

0. 95 







2 

2. 90 

1.23 

1.00 






含 

3 

3.55 

1. 15 

1. 00 

不 


2. 33 

1. 74 



4 

2.35 

1.15 

0. 79 

含 

11 

1. 96 

1. 48 


矿 

5 

3. 54 

1.85 

0.79 

矿 

12 

1. 94 

1. 40 



6 

2. 70 

2. 23 

1.30 


13 

3.00 

1.30 



7 

2.70 

1.70 

0.48 


14 

2.78 

msm 

BUM 


(1) 假定两类样本服从正态分布，试用广义平方距离判别法进 
行判别归类(先验概率取为相等，并假定两类样本的协方差阵相等）； 

(2) 今得一块标本，并测得其 Cu ， Ag ， Bi 的含量分别为 2. 95, 
2. 15和 1. 54,试判断该标本是含矿还是不含矿？ 

5-10 已知某研究对象分为三类，每个样品考察 4 项指标，各类 
的观测样品数分别为7,4,6;另外还有3个待判样品（所有观测数据 
见表 5. 4) .假定样本均来自正态 总体. 
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(1) 试用马氏距离判别法进行判别分析，并对3个待判样品进 
行判别归类. 

(2) 使用其他的判别法进行判别分析，并对3个待判样品进行 
判别归类，然后比较之. 


表 S _4 判别分类的数据 


样品号 

X , 


X 3 

X 4 

类别号 

1 

6.0 

- 11 . 5 

19.0 

90.0 

1 

2 

- 11.0 

- 18.5 


- 36.0 

3 

3 

90 . 2 

msm 

17.0 

3.0 

2 

4 

- 4.0 

- 15.0 

13 . 0 

54.0 

1 

5 


— 14 . 0 

20 . 0 

35 . 0 

2 

6 

”:,4 

- 11.5 

19.0 

37 . 0 

3 

7 

- 10.0 

- 19 . 0 

21.0 

- 42.0 

3 

8 

0.0 

- 23.0 

5.0 

- 35.0 

1 

9 

20.0 

- 22.0 

8 . 0 

- 20.0 

3 

10 

— 100.0 

- 21.4 

7.0 

- 15 . 0 

1 

11 

- 100.0 

- 21.5 

15.0 

— 40.0 

2 

12 

13.0 

— 17 . 2 

18.0 

2.0 

2 

13 

- 5.0 

- 18.5 

15.0 

18.0 

1 

14 

10.0 

- 18.0 

14.0 

50 . 0 

1 

15 

- 8.0 

- 14.0 

16.0 

56 . 0 

1 

16 

0 . 6 

- 13.0 

26.0 

21.0 

3 

17 

— 40.0 

— 20.0 

22.0 

- 50.0 

3 

1 

- 8.0 

- 14 . 0 

16.0 

56.0 


2 

92.2 

- 17.0 

18.0 

3 . 0 


3 

- 14.0 

- 18.5 

25.0 

- 36.0 



5-11 某城市的环保监测站于1982年在全市均匀地布置了 14 
个监测点，每日三次定时抽取大气样品，测量大气中二氧化硫、氮氧 
化物和飘尘的含量.前后5天，每个取样点(监测点)每种污染元素实 
测15次，取15次实测值的平均作为该取样点大气污染元素的含量 
(数据见表 5. 5). 表中最后一列给出的类号是使用第六章将介绍的 
聚类分析方法分析得到的结果（第1类为严重污染地区，第2类为一 
般污染地区，第3类为基本没有污染地区). 

(1) 试用广义平方距离判别法建立判别准则（假设三个总体为 
多元正态总体，其协方差阵相等，先验概率取为各类样本的比例），并 
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列出回判结果. 

(2) 该城市另有两个单位在同一期间测定了所在单位大气中这 
三种污染元素的含量（见表 5. 5 中最后两行），试用马氏距离判别方 
法判断这两个单位的污染情况属哪一类. 


表 5. S 大气污染数据 















第六章聚类分析 

聚类分析又称群分析，它是研究对样品或指标进行分类的一种 
多元统计方法.所谓的“类”，通俗地说就是相似元素的集合. 

在实际问题中，经常遇到分类问题，例如对某城市按大气污染的 
轻重分成几类 区域; 对某年级学生按各科的学习情况分为几种 类型; 
对学生在中学期间学习的科目按培养运算能力、培养推理能力、培养 
记忆能力等分成 几组; 对人体测量的几十个部位的尺寸按反映人体 
高矮，反映人体胖瘦及人体畸形的部位分为 几类; 在经济学中根据人 
均国民收入、人均工农业产值、人均消费水平等多种指标对世界上所 
有国家的经济发展状况进行分类等等.随着生产技术和科学的发展， 
在许多领域中都将遇到分类问题. 

什么是分类?它只不过是将一个观测对象指定到某一类(组).分 
类的问题可以分成两种：一种是对当前所研究的问题已知它的类别 
数目及各类的特征(例如分布规律，或来自各类的训练样本），我们的 
目 的是： 要将另一些未知类别的个体正确地归属于其中某一类，这 
是第五章判别分析所要解决的问题.另一种是事先不知道研究的问 
题应分为几类，更不知道观测到的个体的具体分类情况，我们的目的 
是：需要通过对观测数据所进行的分析处理,选定一种度量个体接 
近程度的统计量，确定分类数目，建立一种分类方法，并按接近程度 
对观测对象给出合理的分类•后一种问题在实际中大量存在,它正是 
聚类分析所要解决的问题. 


§6.1 聚类分析的方法 

聚类分析是实用多元统计分析的一个新的分支，正处于发展阶 
段，理论上虽不很完善，但由于它能够解决许多实际问题，因此这个 
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方法很受人们的重视，特别是和其他方法联合起来使用往往效果更 
好.例如对一批观测对象先用聚类分析进行分类，然后用判别分析的 
方法建立判别准则，用以对新的观测对象判别归类. 

聚类分析的功能是建立一种分类方法，它将一批样品或变量，按 
照它们在性质上的亲疏、相似程度进行分类. 

聚类分析的内容十分丰富，按其聚类的方法可分为以下 几种： 

(1) 系统聚 类法： 开始每个对象自成一类，然后每次将最相似 
的两类合并，合并后重新计算新类与其他类的距离或相近性测度.这 
一过程一直继续直到所有对象归为一类为止.并类的过程可用一张 
谱系聚类图描述. 

(2) 调优法(动态聚类 法）： 首先对《个对象初步分类，然后根据 
分类的损失函数尽可能小的原则对其进行调整，直到分类合理为止. 

(3) 最优分割法（有序样品聚类 法）： 开始将所有样品看成一 
类，然后根据某种最优准则将它们分割为二类、三类，一直分割到所 
需的 K 类为止.这种方法适用于有序样品的分类问题，也称为有序 
样品的聚类法. 

(4) 模糊聚 类法： 利用模糊集理论来处理分类问题，它对经济 
领域中具有模糊特征的两态数据或多态数据具有明显的分类效果. 

(5) 图论聚 类法： 利用图论中最小支撑树的概念来处理分类问 
题，创造了独具风格的方法. 

(6) 聚类预 报法： 利用聚类方法处理预报问题，在多元统计分 
析中，可用来作预报的方法很多，如回归分析和判别分析.但对一些 
异常数据，如气象中的灾害性天气的预报，使用回归分析或判别分析 
处理的效果都不好，而聚类预报弥补了这一不足，这是一个值得重视 
的方法. 

聚类分析根据分类对象的不同又分为 R 型和 Q 型两大类, R 型 
是对变量(指标)进行分类， Q 型是对样品进行分类. 

R 型聚类分析的目的有以下几 方面： 

(1) 可以了解变量间及变量组合间的亲疏关系； 

(2) 对变量进行 分类； 

(3) 根据分类结果及它们之间的关系，在每一类中选择有代表 
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性的变量作为重要变量，利用少数几个重要变量进一步作分析计算， 
如进行回归分析或 Q 型聚类分析等. 

Q 型聚类分析的目的主要是对样品进行分类.分类的结果是直 
观的，且比传统分类方法更细致、全面、合理.当然使用不同的分类方 
法通常会得到不同的分类结果•对任何观测数据都没有惟一“正确 
的”的分类方法.实际应用中，常采用不同的分类方法，对数据进行分 
析计算，以便对分类提供具体意见，并由实际工作者决定所需要的分 
类数及分类情况. 

本章重点介绍在实际问题中应用最广泛的系统聚类法，且主要 
讨论 Q 型聚类分析问题. 

§6.2 距离与相似系数 

为了对样品（或变量)进行分类，就必须研究它们之间的关系 .描 
述样品间亲疏相似程度的统计量很多，目前用得最多的是距离和相 
似系数，这两个统计董与变量的类型密切相关，我们首先回顾一下变 
量的类型. 

根据变量取值的不同，变 M 可分为两 大类： 定量变量和定性(属 
性)变量. 

定置变量就 是我们通常所说的连续变量，例如长度、重量、产量、 
人口、温度等，它们是由测量或计数、统计所得到的量，这类变量具 
有数值特征，称为定量变量. 

定性变量并 非真有数量上的变化，而只有性质上的差异，例如天 
气（阴、晴），性别（男、女），职业 (X 人、教师、干部、农民等），质量(一 
等、二等、三等），矿石的质量(富、中、贫)等•这些变量都是定性变量， 
在这类变量中还可以再分为 两种： 有序变量(没有明确的数量关系， 
只有次序关系，如质量的等级)和名义变量(变量值是几个没有次序 
关系的不同状态，如性别、职业等) • 

不同类型的变量在定义距离或相似性测度时有很大差异.在实 
际应用中更多遇到的是定量数据的聚类分析问题.下面先介绍定量 
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变量数据在聚类分析之前进行数据变换的一些方法. 

一、 数据的变换方法 

设有 n 个样品，每个样品测得 w 项指标（变量），得观测数据 A 
(/ = 1 ，…， W = 1，…，》2).通常将数据列成表 6. 1的形式•表中： 



均值 A = — (j = 1，2,…， w ) ， 


标准差〜= J 二 — A ) 2 (■； •二 l ，2 r ”， m )， 

极差丑） = max x tj — min x tj () = 1 ， 2 ， ... ， m). 

我们所考察的 m 个不同变量，一般都有不同的量纲，不同的数 
量级单位，不同的取值范围.为了使不同量纲，不同取值范围的数据 
能够放在一起进行比较，通常需要对数据进行变换处理.常用的变换 
方法有以下几种. 


1. 中心化变换 

称变换 

x'j — X/J — x, “ = l ， ... ， w) 

为中心 化变换 .变换后数据的均值为0,而协方差阵不变，即协方差 
阵为 
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S* = S = (5 i7 ) otXw , 

其中〜 = r~T 2 ^ ~ 无 ） (工 0 — 勾）= -^77 S x ^^- 

1 <=1 n — 1 t=i 

中心化变换是一种方便地计算样本协方差阵的变换. 

2. 标准化变换 

称变换 

* x u — X ； i = 1 » 2 ,-' ,n \ 

工 ㈠ = - . 

s i \ = 1 ， 2 ，… ,ml 

为标准化变换 .变换后的数据，每个变量的样本均值为0,标准差为 
1，而且标准化变换后的数据与变量的量纲无关. 


3. 极差标准化变换 

称变换 


,= x tl - Xj li = 1 ， 2,…， w j 
R! 1 j = ,ml 

为极差 标准化 变换. 变换后的数据，每个变量的样本均值为0,极差 
为1,且 k ,] |<1，在以后的分析计算中可以减少误差的 产生； 同时变 
换后的数据也是无量纲的量. 

4. 极差正规化变换(规格化变换） 

称变换 


Kj \ j = 1，2,…， m / 

为极差正规化变换. 变换后的数据0<1,彳<1 ; 极差为1，也是无量纲 
的量. 

5. 对数变换 

称变换 

x,'j = lnO ,)) (要求 j :,) > 0, z = 1，2,…，= 1，2, …，? 72) 

为对 数变换 •它可将具有指数特征的数据结构变换为线性数据结构. 

此外，还有平方根变换，立方根变换等•它们的主要作用是把非 
线性数据结构变为线性数据结构，以适应某些统计方法的需要. 
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二、样品间的距离和相似系数 

描述样品间的亲疏程度最常用的是距离.设观测数据0 = 1, 
2,…， w ; j'=l ,…， m ) 列成表 6. 1的形式 . w 个样品看成 w 维空间中 
的 n 个点，用 < 表示样品和之间的距离，一般 要求： 

(1) 对一切当 d,j = 0 <=> X (,) = X ( p ； 

(2) <^ = 4,对一切 

(3) ^^^^+心广对一切*、、々（三角不等式). 

对于定量变量，常用的距离有以下几种. 


1. 闲科夫斯基 ( Minkowski ) 距离 

称 

r ™ li /? 

dij ( q ') = 2 j \ Xit — = 1,2,•••,«) (6.2.1) 

为闵科夫斯基距离 

(1) 绝对值 距离： 在 (6. 2.1) 式中，当 9 = 1 时的一阶闵科夫斯基 
距离为 


2 \ x it — x , t \ (“ ） = 1，2,…，《)， 

称它为绝对 值距离 . ^ 

(2) 欧氏 距离： 在 (6. 2. 1) 式中，当 9 = 2时的二阶闵科夫斯基距 

离为 


^,；(2) = J X \ x “ - x iA z (“j = 1，2,…， 《)， 

称它为欧氏 距离. 

欧氏距离是聚类分析中使用最广泛的距离.但该距离与各变量 
的量纲有关;没有考虑指标间的相 关性; 也没有考虑各变量方差的不 
同.如从欧氏距离的定义中易见，变差大的变量在距离中的作用（贡 
献)就会大，这是不合适的.简单的处理方法就是对各变量加权，比如 
用 1 A 2 作为权重可得出“统计距离”(或方差加权距 离）： 

d'j (2) = ~(D=l ， 2r.. ， w). 
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(3) 切比雪夫 距离： 当 9 趋于 cx > 时，称 

dijiao ') = max | x „ — ( i,j = 1，2,…，”） 

为切比雪夫距离. 

2. 兰氏距离(要 求和 >0) 

兰氏距离是由 Lance 和 Williams 最早提出的，故称为 兰氏距 
离 ，其定义为 

diiiL) = i |j (xl + xj!) 

这是一个无量纲的量，克服了闵氏距离与各指标的量纲有关的缺点， 
且兰氏距离对大的奇异值不敏感，这样使得它特别适合高度偏倚的 
数据.但兰氏距离也没有考虑变量间的相关性. 

闵氏距离和兰氏距离都是假定变量之间相互独立，即在正交空 
间中讨论距离•但在实际问题中，变量之间往往存在着一定的相关 
性，为克服变量之间相关性的影响，可以采用马氏距离. 

3. 马氏距离 

样品和；的马氏距离为 

dij(M) = (X (i) — S~ x (X u -, — X (/) ) , 

其中为样本协方差阵的逆矩阵. 

马氏距离虽然可以排除变量之间相关性的干扰，并且不受量纲 
的影响，但是在聚类分析处理之前，如果用全部数据计算均值和协方 
差阵来求马氏距离，效果不是 很好. 比较合理的办法是用各个类的样 
本来计算各自的协方差阵，同一类样品间的马氏距离应当用这一类 
的协方差阵来计算，但类的形成需要依赖于样品间的距离，而样品间 
合理的马氏距离又依赖于类，这就形成了一个恶性循环.因此在实际 
聚类分析中，马氏距离也不是理想的距离. 

为了克服变量间相关性的影响，我们引入斜交空间距离. 

4. 斜交空间距离 

由于变量之间存在着不同程度的相关关系，在这种情况下，用正 
交空间距离来计算样品间的距离，易产生形变，从而使得用聚类分析 
进行分类时的谱系结构发生变形. 
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在;《维空间中，为使具有相关性变量的谱系结构不发生变形， 
采用由下式定义的 斜交空间距离 ，即 

「1 m m -il/2 

d , j = 弋以工'.厂(/"'=1，2广.，《)， 

Lm / =1 

在数据标准化处理下，式中的〜为变量 X * 和；0之间的相关系数. 

5. 相似系数 

样品间的亲疏程度除了用距离描述外，也可用相似系数来表示. 
参见下面小节三“变量间的相似系数和距离”中的定义. 



6. 定性变置样品间的距离或相似系数 

以上介绍的样品间的距离或相似系数都是对定量指标定义的 • 
现介绍定性变量(名义或有序变量)的距离或相似系数的定义方法. 

在数量化理论中，常把定性变量叫做 项目， 而把定性变量的各种 
不同取“ 值”叫做类目 .例如性别是项目，而男或女是这个项目的类 
目； 体形也是一个项目，而适中、胖、瘦、壮等是这个项目的类目.性别 
只能取男或女中的一个类目，不能 兼取; 而体形可以是适 中且壮 ，即 
可兼取两个类目. 

设样品叉^的取值为 

(5,.( A ，1) ，占,_(々，2)，… ，况 (是， r *)) (? = 1, ,n -,k = 1，…， w )， 

其中 《 为样品的个数， m 为项目的个数， r * 是第々个项目的类目数. 
比如在表 6. 2中，当/6 = 1时 X (,) 的取值为（1，0,0,0),这里 n = 4, 
况（1，1) = 1，次（1，/)=0 (/尹1).若 

ri , 当第* 个样品中第 a 个项目的定性数据 
5, a ,/) 为第/个类目时， 

' o , 否则， 

则称表为第々项目之 z 类目在第 〖个样 品中的反应. 

设两个样品分別为足, > 和 x >，若次 u j ) =士 ( ) = 1，则称这 

两个样品在第々个项目的第/类目上1 一 1配对;若况 0 M )= A(m 
=0，则称这两个样品在第々个项目之/类目上0 — 0配对;若& a ，/ ) 
尹，则称为不 配对. 

记叫为 X Cl) fq X 0> 在 m 个项目的所有类目中1 一 1配对的总 
数； m 。 为0_0配对的总数；为不配对 总数. 显然， 
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m 0 -\- m l m z =总类目数 /> (户 =+ r 2 + … + r m ). 

表 6_ 2 给出两个样品的取“值”情况•显然 Wl = 3, m „ = 7, m 2 = 4. 
项目数 m = 4, 总类目数/ > = 4 + 2 + 5 + 3 = 14. 


表 6. 2两样品的取值情况 


\项目 

项目1 

--- - - 

项目2 

项目3 

项目4 

样品\ 

1 

2 

3 

4 

1 

2 

1 

2 

3 

4 

5 

1 

2 

3 

X<o 

1 

0 

0 

0 

0 

1 

1 

0 

0 

0 

1 

0 

1 

0 

X (» 

0 

1 

0 

0 

0 

1 

0 

0 

1 

0 

1 

0 

1 

0 


(1) 两样品足 0 和间的距离定义为 

d,j = w 2 / (m l + m 2 ). 

即为不配对的类目数与在有反应的类目（包括 〗一1 配对和不 配对) 
数的 比值. 比如表 6. 2, 4 = 4/7. 

当项目只能取可能类目中的一类，即在不能兼取情况下，两样品 
的距离定 义为 ： A = 其中; w 2 * 是不配对的项目（变量) 个数; 

m 为项目总个数. 

类似于欧氏距离，还可以定义距离为 

m r k 

^ij ~ X ) 2 — Sj(k,i)y, 

*»=i /^i 

即不配对的总数. 

( 2 ) 样品 X (,) 和间的相似性度量由表 6. 3给出几种定义方 

表 6. 3两样品间相似性的几种度量 



匹配系数 

说 明 

1 

itno -\- m \) / p 

配对的总数在总类目数中之比 

2 

m\/p 

1-1 配对的总数在总类目数中之比 

3 

m \/ ( mi - hm 2> 

不考虑0— 0配对的情况 

4 

2 (mo + mi )/(/> + mo + mi ) 

对1一1和0—0配对数双倍加权 

5 

( mo + mi )/(/> + m 2) 

对不配对数双倍加权 

6 

2 mj /(2 mi -{- mi ) 

对 1-1 配对数双倍加权，不考虑 0-0 配对 

7 

m \! (mi + 2 m 2) 

不考虑 0—0 配对，且对不配对数双倍加权 

8 

m \/ m 2 

不考虑 0-0 配对,1一1配对数与不配对数之比 
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法，这种相似性度量也称 为匹配系数. 

三、变量间的相似系数和距离 

聚类分析方法不仅用来对样品进行分类，有时还需要对变量进 
行分类.在对变量进行分类时，通常采用相似系数来表示变量之间的 
亲疏程度. 

设表示变量兄和；^间的相似系数，一般 要求： 

(1) C , v = 士1 ㈡ X.^aXj ( a ^ O 为常数 ）; 

(2) |<^|<1，对一切£，）成立; 

(3) C ,. 尸 C ★，对一切?•，_；•成立. 

越接近1,则表 示兄和 X ,的关系越密切， C ,, 越接近0,两者关 
系越疏远. 

对于定量变量，我们通常采用的相似系数有 X ,和；0间的夹角 
余弦和相关系数. 

1. 夹角余弦 

变量 X ,的《次观测值 ( x h ^ 2 l ,-, x m ) 可以看成 n 维空间的向 
量.则兄和足的夹角的余弦 cosa , 7 称为两向量的相似系数，记 
为 C ,,( l )， 即 

n 

C f >( l ) = coso l; = t=1 — (i yj = 1，…， m ), 

V 

当兄 和； c 平行时，其夹角 a , = 0% C ,/ l ) = l , 说明这两个向量完全 
相似;当 X ,和&正交时 ，其％ =90% C , >(1) = 0,说明这两个向量 
不相关. 

2. 相关系数 

相关系数就是对数据作标准化处理后的夹角 余弦. 变量 X ,和 
X ,的相关系数常用^表示，在这里我们记为 C „(2)， 即 
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2 (工‘，一 x.Xx^ — Xj ) 


C„(2) 


(i ,j = 1，... , m ). 


^ - S ,) 2 ^ 2 ix,j - XjY 

当 C, 7 (2) = l 日 fi 示两变量线性 W 关，一般情况， |C,)|<1. 


3. 变量间的距离 

(1) 利用相似系数来定义变量间的距离，即 

d,j = 1 — \ Cij \ 或 d ),= \ - Cl U=l，2，"，m). 

(2) 利用样本协方差阵 S 来定义 距离. 设 ( S ,P„ X „>0, 变量 
X,和X,间的距离可定义为 

da = + s u — 2 s tj ( i,j = 1 ， 2 ，… , m ). 

(3) 把变量 X 的 n 次观测值看 成为” 维空间的点.在 n 维空间 
中按小节二“样品间的距离和相似系数”中介绍的方法可类似定义 w 
个变量间的各种距离. 

4. 定性变 S 间的相似系数 

当变量X,是定性(属性)变量时，也可以定义多种相似系数•设 
变量兄的/>种取值记为 h，r 2 ，…, (或称项目X,有/>个类目 ）； X, 
的9种取值记为，…， k ”个样品中两个定性变量的实际观测 
结果经整理后列成表 6. 4, 其中〜 表示在”个样品中X,取第々个值 
且X,取第/个值々的频数.通常称表 6. 4为列 联表. 


表 6. 4列联表 


变量 

h 

h 

… 


求行和 

n 

n\\ 

穴 12 

… 

n \q 

«i+=2 叫 
l 

广 2 

n 2\ 

«22 


n2q 

打 2+ = 

i 

r P 

n p \ 

n pZ 


n M 

n p+ = 

i 

求列和 

w+i 

n+z 


n+q 

总和 n+ + = 2 2 riij 
* j 


注：表中《+/= (/ = 1，2,…， g)， ” ++ = »为观测个数 总和. 
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在利用列联表对两个属性变量的独立性检验中，经常要用到尤 2 
统 计量： 

^” ++ (E 自;小 


建立在 x 2 统计量基础上的相似系 数有: 
(1) 联列 系数： 


C, y (3) = VX ; /(^ + n ), 


(2) 连关系数(有三 种）： 

C 〆 4 ) = Jn- max{p - 1 ,q _ 1) ’ 


A . 


C '> (5) = V n - min (/ > - \,q - 1 ) ， 


C,,(6) 


n • V (p — 1)(9 — 1) 


如果 兄和 X, 只取两个值(即 />=g = 2, 这两个值不妨分别记为0和 
1)，则表 6. 4的列联表可简化为表 6. 5. 


表 6. S 二值变置的列联表 


Xi 

1 

0 

求行和 

1 

a 

b 

a-\-b 

0 

c 

d 

c-\~d 

求列和 

a-\~c 

b+d 

总和 n — a - Vb -^ rc-^d 


常用的相似系 数有： 

(3) 点相关系数： 

(7) = ad — be _____ 

V(a + 6 )(c + d)(a + c )(6 + d ) 


(i y j = 1 ，… ， m ) ‘ 
( 6 . 2 . 2 ) 


这是与定量变量的相关系数相对应的量 • 
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(4) 四分相关 系数： 


C 0 (8) = sin 1 90° 


(a d ) 一 （6 + c ) 、 

a b c d / 


(5) 夹角 余弦： 
C , y (9)=( 


1/2 


a b a 

考虑到 <^=<^ ，改进的量是 
'a a 


、/ (a + i ) (a + c ) 


• (6.2.3) 


^ ^ ^ d d I __ ad _ 

" ^\ a + ba + cd + bd+cl _ V ( a +6)( a + c ) W +6) W + c )' 


§6.3 系统聚类法 

系统聚类法是目前在实际应用中使用最多的一类方法，它是将 
类由多变到少的一种方法. 

本节考虑《个样品的聚类问题，其观测数据列为表 6. 1的形式， 
w 个 w 元样品记为又 (0 (i = l ,2,— , n ). 

一、 系统聚类法的基本思想和基本步骤 

设有《个样品，每个样品测得 m 项指标.系统聚类方法的基本 
思想 是：首 先定义样品间的距离（或相似系数）和类与类之间的距 
离.初始将《个样品看成 n 类(每一类包含一个样品），这时类间的距 
离与样品间的距离是等 价的; 然后将距离最近的两类合并成为新类， 
并计算新类与其他类的类间距离(类间距离的几种定义将在下面介 
绍），再按最小距离准则并类.这样每次缩小一类，直到所有的样品都 
并成一类为止.这个并类过程可以用谱系聚类图形象地表达出来. 

由以上系统聚类法的基本思想，即可得出它的基本步骤 如下： 
(0) 数据 变换： 使用上节介绍的方法对数据进行变换•数据变 
换目的是为了便于比较和计算，或改变数据的结构 • 

下面的步骤是选择度量样品间的距离定义(如欧氏距离)及度量 
类间的距离定义(如最短距离法，参见下面小节二“系统聚类分析的 
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方法 ”）： 

(1) 计算”个样品两两间的距离，得样品间的距离矩阵 D <0 \ 

( 2 ) 初始（第 一步 ： t = l )« 个样品各自构成一类，类的个数 
是=«，第 z 类 G = { X (l) } 0 = 1, -, n ). 此时类间的距离就是样品间 
的距离（即 D a , =£> <0) ). 然后对样品 X (, )( 2 = 2,…， 《) 执行并类过程 
的步骤 (3) 和 (4). 

(3) 对步骤 （2) 得到的距离矩阵，合并类间距离最小的两 
类为一新类. 此时类的总个数々减少1类，即 

k = n ~ i -\-\. 

(4) 计算新类与其他类的距离，得新的距离矩阵若合并后 
类的总个数々仍大于1，重复步骤 (3) 和 （4); 直到类的总个数为1时 
转到步骤 (5). 

(5) 画谱系聚 类图； 

(6) 决定分类的个数及各类的成员. 

例 6. 3. 1设有5个产品，分别对每个产品测得一项质量指标 
X ，其值如下：1 ，2,4. 5,6,8.试对这5个产品按质量指标进行分类 • 

解设样品间的距离取为欧氏距离，类间的距离取为类间的最 
短距离，根据上面介绍的步骤，计算 如下： 

(1) 计算 5 个 样品： X ⑴， X ( 2) ，兄两两间的距离，得 
初始的类间距离矩阵 D ⑴(也就是样品间距离矩阵 £)«>): 



叉⑴ ^(2) X (3) X (4) X (5) 

X ⑴ 

0 [ T ] 3.5 5.0 7.0 

x (2) 

0 2.5 4.0 6.0 

•^(3) 

0.0 1.5 3.5 

X ⑷ 

0.0 2.0 


0.0 


(2) 初始 n 个样品各自构成一类，得5个类： G ,== { X ( o } (t = 1» 
…， 5) ，类的个数々 = 5. 

(3) 由£> (1) 可知，类间距离为1时最小，首先应合并义⑴和 X (2> 
为一新类，记为 CL 4={ X ⑴， Xmh 此时类的总个数々减少1，变为 
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是= 4,故把此步骤得到的新类记为 CL 4. 

(4) 按最短距离法计算新类 CL 4 与其他类的距离，得新的距离 
矩阵 D ⑵： 



X (3 ) 

X (4) 

X (5) 

CL 4 

X ⑶ 

0 

O 

3.5 

2.5 

X (4) 


0.0 

2. 0 

4.0 

X (5 ) 



0.0 

6.0 

CIA 




0.0 


因此时类的总个数々= 4大于1，继续重复并类过程 • 

(5) 由 Z > (2) 可知，类间距离为 1.5 时最小，故 合并； ^和；^为 
一新类，记为 CL 3={ X ⑶，； ^ 4 山此时类的总个数 A 又减少1，变为 
是= 3,故把此步骤得到的新类记为 C 13. 

(6) 按最短距离法计算新类 CL 3 与其他类的距离，得新的距离 
矩阵 D ⑶: 



X ( 5 , 

CIA 

CL 3 

X (5) 

0 

6 

EZo] 

CIA 


0 

2.5 

CL 3 



0. 0 


因此时类的总个数々= 3大于1，继续重复并类过程. 

(7) 由 D (3) 可知，应合并和 CL 3 为一新类，记为 CL 1 = 
{ X (5) ， X ⑶， X (4 山此时类的总 个数々 再减少1，变为々 = 2,故把此步 
骤得到的新类记为 CL 2. 

(8) 按最短距离法计算新类 CL 2 与其他类的距离，得新的距离 
矩阵£> (4> : 



CL 4 

CL 2 

CIA 

0 


CL 1 


0.0 


因此时类的总个数々= 2大于1,继续重复并类过程. 

(9) 由 D (4) 可知，最后应合并 CL 4 和 CL 2 为一新类，记为 CL 1 
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={义 (1> ，又( 2> ，叉( 5> ，；^ 3 ,，又( 4> } ; 此时类的总个数;6 = 1，故把此步骤得 
到的新类记为 CL 1. 

(10) 此时所有样品全并成一类，得新的距离矩阵 



CL 1 

CL 1 

0 


并类过程至此结束. 

(11) 画谱系聚类图（见图 6.1). 


义 山 
^( 2 ) 


图 6.1 谱系聚类图 


(12) 确定类的个数及各类的 成员： 

若分为两类，则 0 2 ) = {X ⑴ » X (2) } j = {X(5) »X(3) »X(4) } ； 

若分为三类，则 G { 3> = U ⑴ , X < 2) }, G < 3> = { X C5) }, Gf = { X < 3) , 

X ⑷ h 

若分为四类，则 G ; 4> = {X ⑴ , X m ), G ^= { X (5) }, G < 4) - { X (3) }, 
G : 4, ={ X (4 山 

若分为五类，则 G , (5> ={ X W } 0 = 1,2,3,4, 5). 

有了谱系聚类图，根据实际问题希望分为几类，都可以从谱系聚 
类图中得到分类结果.到底分为几类最合适?这里并没有绝对正确的 
原则，一般可根据实际问题的不同，从谱系聚类图直观看出，或通过 
分界值（阈值)给出分类，也可以用一些近似的检验统计量来验证分 
类个数如何选取更合适(见§ 6. 4中小节三“类个数的确定 ”). 

以上并类过程可以使用 SAS/STAT 软件的 CLUSTER (系统 
聚类)过程对这组简单的数据进行分类. 
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二、系统聚类分析的方法 

系统聚类法的聚类原则决定于样品间的距离(或相似系数)及类 
间距离的定义，类间距离的不同定义就产生了不同的系统聚类分析 
方法.本节介绍常用的几种系统聚类分析方法(各种方法名字后面括 
号中的英文是 CLUSTER 过程中相对应的名宇). 

以下用 a 表示样品 x w m X 0) 之间的距离，当样品间的亲疏关 
系采用相似系数 Q 时，令毛=1一 |Q I (或 4 = 1-(^) ;用 A ; 表 
示类 G , 和$间的距离. 

1. 最短距离法 (SINgle linkage ) 

类与类之间的距离定义为两类中相距最近的样品之间的距离， 
即类 G , 和之间的距离定义为 

= min d t ] (这里 Z 6 表示毛 0 6 G p ， 以下同）. 

teG p , jeG q 

当某步骤类 G , 和 G 9 合并为后，按最短距离法计算新类 G r 

与其他类 G * 的类间距离，其递推公式为 

D rk = min d tl { G r = { G p , G q }) 

i € G r ,>6 G 4 

= min { min rf ,., min d “} 

ieG p ,jeG k i^G q ,jeG k 

=min { Dpk ， Dq k } (々 # P ， q \ 

在例 6. 3.1 中的类间距离就是使用最短距离法定义的. 

2. 最长距离法 (COMplete method ) 

类与类之间的距离定义为两类中相距最远的样品间的距离，即 
类 G 和之间的距离定义为 


Dpq 


max d ,：. 
- ec p . j 6 C 9 


当某步骤类 Gp 和合并为 G 后，按最长距离法计算新类 G r 
与其他类 G t 的类间距离，其递推公式为 

D rk = max { D pk , D qk } (々尹 p ， q 、. 

最长距离法即为两类合并后的新类与其他类的距离是与原来两 
类的类间距离的最大者，它加大了合并后的类与其他类的距离，具有 
空间距离扩张性质(见§ 6. 4中小节_“系统聚类法的简单性质”). 


3. 中间距离法 (MEDian method ) 

如果类与类之间的距离既不采用两类之间的最近距离，也不采 
用最远的距离，而是采用介于这两者间的距离，这种方法称为 中间距 
离法. 

当某步骤类 G , 和 G , 合并为后，按中间距离法计算新类 
与其他类(? 4 的类间距离，其递推公式为 

― + (— 1/4 < < 0，々古 pjq ). 

常取/?=-1/ 4 ,此时由初等几何知， £) r * 就是以为边的 
三角形中边上的中线. 

4. 重心法 （CENtroid method ) 

以上三种方法在定义类与类之间距离时，没有考虑每一类中所 
包含的样品个数•如果将两类间的距离定义为两类重心间的距离，这 
种聚类方法称为 重心法 .对样品分类时，每一类的重心就是属于该类 
样品的均值. 

设某一步骤将和 G , 合并成 G r 后，它们所包含的样品个数分 
别为心，〜和〜 ( n r = n ,+ n ,). 各类的重心分别为 X W ， X ⑷和 
显 然有： 

= ^{n p X^ + n q X^). ( 6 . 3 . 1 ) 

设某一类 G * 的重心为 X ( i ) ，它与新类 G r 的距离是 

D rk = d[X^,X w ). 

如果样品间的距离定义为欧氏距离，把 (6. 3. 1) 式代入 A *， 则有 
D 2 rk = (X 01 ) — X W )'(X ⑴一 X <r> ) 

〜（ X …一 X w ) + 〜 （ X (i> — X (?) ) 


Ln r 


n r 


〜 (X(*) — + 玉 (x ⑴一 x (?) ) 

n r n r 

= ^n Dlph + _ ^ ^ P ， q). ( 6 . 3 . 2 ) 

ri r fl r Tl r Tl r 

上式就是当样品间距离取为欧氏距离时，合并后新类与其他类距离 
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平方的递推公式.如果样品间距离不是欧氏距离，根据不同情况可导 
出不同的递推公式. 


5. 类平均法 (AVErage linkage ) 

重心法虽有较好的代表性，但并未充分利用各个样品的信息，因 
而又有人提出用两类样品两两之间平方距离的平均作为类之间的距 


离，即 

私=士 S 4. 

n p n q iec p ,j^G q 

采用这种类间距离的聚类方法，称 为类平均法. 

当某步骤将类 G , 和 G , 合并为 G r: 

则 G 与其他类 G * 距离平方的递推公式为 




D 2 ri = + ^ Dl „ {k ^ p , q ). 

n r Jl r 

类平均法是一种使用比较广泛、聚类效果较好的方法. 


6. 可变类平均法 ( FLExible-beta method ) 

类平均法的类间距离递推公式中，没有反映类 G , 和 G , 之间距 
离 D ” 的影响，而 可变类平均 法是将合并后的新类 a 与其他类 G 
的距离平方公式进一步推 广为： 

D 2 rt = (1 -妁 \^ D 2 pi + + 机 (k ^ p , q ), 

其中 0 是可变参数，一般取 ^<1- 显然，可变类平均法是由类平均法 
和中间距离法适当推广得到的（当0=0时就是类平 均法； 当一 I / 3 
<沒<0且 n p = n q 时就是中间距 离法； 当〜时就是下面将介绍 
的可变法). 

可变类平均法的分类效果与的选择关系极大，当接近1时 
一般分类效果不好，在实用中常取负值，如取/3=-1/4. 


7. 可变法及 McQuitty 相似分析法 ( MCQ ) 

当某步骤将类 G , 和 G , 合并为 G r 后 ，可变法把 G r 与其他类 G * 
距离平方的递推公式定义为 

D\= + + (k^p,gX 

在 SAS / STAT 软件的 CLUSTER 过程中使用/?=0的递推 公式： 



§6.3 系统聚类法 235 


D 2 rk = (D% + 巧 )/2 ， 

并把此方法称为 McQuitty 相似分析法. 

8. 离差平方和法 ( WARD ) 

离差平方和法是 Ward (1936) 提出的，也称为 Ward 法. 它基于 
方差分析思想，如果类分得正确,则同类样品之间的离差平方和应当 
较小，不同类样品之间的离差平方和应当较大. 

假定已将《个样品分为々类，记为，…， G *， 表示 G , 类 
的样品个数，表示 G , 的重心， X 以表示 G , 中第/个样品 G = l ， 
…，《,)，则 G , 中样品的离差平方和为 

” t 

^, = 2 (^<0 - — n 

i=i 

其中 X : X ⑴为;《维向量，为一数值 G = l ，2, …，々). 
k 个类的总离差平方和为 

k k n t 

w = S % = 2 S ( C ; — x m y(x^ - x w >. 

当々固定时，要选择使‘达 k 极小的分类. 

Ward 法的基本思想是，先将《个样品各自成一类，此时 W = 0; 
然后每次将其中某两类合并为一类，因每缩小一类离差平方和就要 
增加，每次选择使 W 增加最小的两类进行合并，直至所有样品合并 
为一类为止. 

Ward 法把某两类合并后增加的离差平方和看成为类间的平方 
距离，即令 

D 2 ^ = W r - ( W P + W ^,) 

表示类和 G , 的平方距离，其中 G r ={ G >, G ,}， 分别为 
G r , G P , G q 类中样品的离差平方和.利用的定义，可得 

n r 

^ Vr = Z ^ X< (0 - n ( X ；；? - 

t=l 

n p 

= X ) - - x <r) ) 

i=l 

+ 2 (雖一 x ^ ycx ^ - n 

«=i 





236 第六幸聚类分析 


其中 X w = ^-[ n ^ ) + n , X <?) ]. 经整理可得 
” r 

- x^y(x ip) - x w ). 

W r 

当样品间距离采用欧氏距离时，上式可表为 


其中表示 G，G, 的重心又⑷与叉⑷的平方 距离： 
d% = d 2 Q [… ，又⑷ )• 

这表明此时 Ward 法定义的类间距离与重心法只相差一个常数倍. 

当 G p 和 G , 合并为 G r 后， G r 与其他类 G * 的距离有如下递推公 
式 


D 2 rk 


n k + 




: + 


D 2 . 


n k 


在实际应用中，离差平方和法应用比较广泛，分类效果较好.但 
它要求样品间距离必须采用欧氏距离. 

除上述这些系统聚类法外，在 SAS / STAT 软件的 CLUSTER 
过程中还给出 3 种系统聚类方法：最大似然谱系聚类法 ( EML ), 密 
度估计法 ( DEN ) 和两阶段密度估计法 ( TWO ). 


三、系统聚类方法 的统一 

上面介绍的8种方法的聚类步骤完全一样，所不同的是类与类 
之间的距离用不同的方法定义，因而得到不同的递推公式， Lance 
和 Williams 于1967年首先给出了统一公式，这样为编制统一的计 
算程序提供了很大的方便. 

设与 G , 合并为 G r: G r = { G p , G q ), 则新类与其他类 G*a 
关户， 9) 的平方距离为 

圯 = a p D\ k + afil k + + 7 \D 2 pt - D 2 qk \ , 

其中《>，《,，/?和7是参数，不同的系统聚类方法有不同的取值(见表 
6 . 6 ). 
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表 6. 6系统聚类法的参数表 


方 法 

ap 



y 

最短距离法 

1/2 

1/2 

0 

-1/2 

最长距离法 

1/2 

1/2 

0 

1/2 

中间距离法 

1/2 

1/2 

- l /4< y 3<0 

0 

重心法 * 

np/nr 

n q /nr 

— CtpCLq 

0 

类平均法 

np/rir 

n q / n r 

0 

0 

可变类平均法 

0■ — 卩) np / n r 

( l — ^) n q / n r 

^<1 

0 

可变法 

(1-/3)/2 

( i - y ?)/2 

/?<1 

0 

离差平方和法 • 

n P - j - n k 

n r -\- n k 

n Q -\~ n k 

Wr + W * 

nk 

n r ~\-nk 

0 


注： 右上角有“ * ”的方法要求样品间的距离取欧氏距离. 


§ 6.4 系 统聚类法的性质及类的确定 

对同一组数据用不同的聚类方法，一般会得到不尽相同的分类 
结果，我们应选择哪一个结果呢？应该把这组数据分为几类最合适？ 
这是实际应用中很关心的问题.本节将研究系统聚类法的一些简单 
性质及确定分类个数的准则. 

— 、系统聚类法的简单性质 

系统聚类法具有下面两个简单性质： 

(1) 单调 性：设 D * 表示系统聚类法中第々次并类时的距离.如 
例 6.3. 1， 用最短距离时有 : A = 1 ，A = 1.5， D 3 = 2, D 身 2. 5,满足 

—个系统聚类法若能保证{£)*，々=1，2,…，《 — 
是单调上升的，则称它具有单调性.并类距离具有单调性，这符合系 
统聚类法的基本思想.可以证明，最短距离法、最长距离法、类平均 
法、可变类平均法，以及离差平方和法都具有单调性，只有重心法和 
中间距离法不具有单调性（见习题六的第 6-4 和 6 -5 题). 

(2) 空间的浓辑与扩张：以例 6. 3. 1来说明该性质.比较最短距 
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离法和最长距离法的并类过程，以及每一步骤相应的距离矩阵，可以 
看出，每一步骤都有： 

心(短）< 4,( 长）（对一切 i , j ). 

这种性质称为最长距离法比最短距离法 扩张; 或称最短距离法比最 
长距离法浓缩. 

对于系统聚类的各种方法，有如下 结论： 类平均法比最短距离 
法扩张，但比最长距离法 浓缩; 类平均法比重心法扩张，但比离差平 
方和法浓缩.太浓缩的方法不够灵敏，太扩张的方法当样品容量大时 
容易失真.类平均法比较适中，相对于其他方法不太浓缩也不太扩 
张，而且具有单调性.因而是一种应用广泛、聚类效果较好的方法. 

系统聚类各种方法的比较还可以从其他方面的性质来研究，比 
如系统结构性、最优化性等，各种方法的比较目前仍是值得研究的一 
个课题. 

二、类的定义及特征 

聚类分析的目的是对样品或变量进行分类，但至今对什么是类 
还没有给出定义.在实际应用中，不同领域里类的含义是不尽相同 
的，要给出一个严格的统一定义是不容易的. 


1. 类的几种定义 

Rao 在 1977 年曾给出以下三种定义. 

定义 6. 4.1 设阈值了是给定的正数，若集合 G 中任两个元素 
的距离 A 都 满足： 

d tj < T ( i,j € G ), 

则称 G 对于阈值: T 组成一个类. 

定义 6. 4. 2设阈值 7’ 是给定的正数，如果集合 G 中每个 
都 满足： 

71 1 >€C 

其中《是集合 g 中元素的个数，则称 g 对于阈值 r 组成一个类. 
定义 6. 4. 3设了和// (只>了)是两个给定的正数，如果集合 
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G 中两两元素距离的平均 满足： 

^deG), 

其中 n 是集合 G 中元素的个数，则称 G 对于阈值 T , H 组成一个类. 
类似地还可以给出以下两种定义. 

定义 6. 4. 4设了是给定的正数，若对集合 G 中任一个 /6 G , 
一定存在使得这两个元素的距离& 满足： 
d,j < T { i,j e G ), 

则称 g 对于阈值: r 组成一个类. 

定义 6.4. S 设阈值 了是给定的正数，将集合 G 任意分为 两类: 
Gi 和 G 2 ，这两类之间的距离 ZXG ^ Q ) 满足： 

D{G x ,G 2 )^r, 

则称 G 对于阈值7’ 组成一个类. 

在系统聚类的方法中，我们介绍了类与类之间的8种距离及统 
一的递推公式.类的定义 6. 4. 5中可以用于8种类间距离的任 一种; 
定义 6. 4. 1可用于最长距 离法; 定义 6. 4. 4可用于最短距 离法; 定义 
6. 4. 2可用于类平均法. 

容易看出，前4种定义中，定义 6. 4. 1要求是最高的，凡是符合 
它的类，一定也符合其后三种定义的类.此外，凡是符合定义 6. 4. 2 
的类，也一定是符合其后两种定义的类. 


2. 类的特征 

设类 G 包含的样品记为 X ⑴， X ( 2) ，…， X (1>) ，其中 X w 0 = 1，2， 
…， n ) 为 m 元总体的样本.可以从不同角度来刻画 G 的特征，常用的 
特征有以下 三种： 

(1) 均值(或称 G 的重 心）： 

(2) 样本离差阵 A 6 . 及样本协方差阵 Sc ； 分 别为： 

A-c = 2 一 X 0 -)(X (1) — Xc )' » Sc = ~ 

7^i n - 1 

(3) 类的直径：用 Dc ； 表示类 G 的直径，常用的直径有 

n 

d g =J] (x ⑴一 x c y (x U) - x G > = ti(A c ), 
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D g = max d “, 

«.j€G } 


三、 类个数的确定 

聚类分析中，类的个数如何确定的问题是一个十分困难的问题， 
人们至今仍未找到令人满意的 方法; 但这又是一个不可回避的问题. 

迄今为止，我们只是从不同的角度直观地叙述了几种“类”的概 
念，并未给出严格的统一定义，要对各种不同形式的类给予统一的定 
义是比较困难的，“类”的概念是一个模糊的概念.因此，在实际应用 
中，人们并不完全从类的定义来确定类•下面介绍确定类个数的几种 
常见方法. 


1. 由适当的阈值确定 

选定某种聚类方法，按系统聚类的步骤并类后，得到一张谱系聚 
类图•聚类图(或简称谱系图）只反映样品间(或变量间）的亲疏关系， 
它本身并没有给出分类，这就需要规定一个临界相似性尺度，用以分 
割谱系图而得到样品（或变量)的 分类. 比如例 6. 3. 1，用最短距离法 
得谱系聚类图（见图 6. 1)，给定临界值(阈值 W =2, 根据定义 6.4.5, 
其含 义为： 当类间距离<2时形成的各个类中所包含的样品间关系 
密切，应归属同 一类. 这相当于在距离 >2( 比如 2. 01) 处切一刀，显 
见5个样品可分为 两类： X ⑴， X ⑵为一 '类， X ( 3) , X ( 4 ) » X ( 5 ) 一 '类 • 


2. 根据数据点的散布图直观地确定类的个数 

如果考察的指标只有两个 (m = 2)， 则可通过数据点的散布图直 
观地确定类的个数.如果有三个变量，可以绘制三维散布图并通过旋 
转三维坐标轴由数据点的分布来确定应分几个类(使用 SAS 软件). 
当考察的指标在三个以上时，可以由这些指标综合出两个或三个综 
合变量(见第七章)后再绘制数据点在综合变量上的散布图，从而直 
观地确定分类个数. 

3. 根据统计量确定分类个数 

在 SAS / STAT 软件的 CLUSTER 过程中，提供以下一些统计 
量可以近似地检验分类个数如何选择更合适. 
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(1) 记统 计量： 假定已将《个样品分为是类，记为，…， 
Gt ， « i 表 7 K G , 类的样品个数 (71! + … +〜=«) ，又“)表示 G , 的重心 . 

表示 G , 中第； 个样品(£ = 1 ， … ， ; I ,)， X 表示所有样品的重心，则 
G , 类中〜 个样品的离差平方和为 

n t 

研 ,， E (H - x M ), 

i = i 

其中；和 X 均为饥维向量，为一 数值; 所有样品的总离差 
平方和为 

T= SS(^-XV(X^-X), 
t 又可以分解为 

r = E E - + - 

间 1 = 1 

k k 

= ^n,a u> - X)'(X ⑴ -X) = P, + B k . 

t=l t=l 

令 巧=争=1一争， 

则祀值越大，也就是 BJT 越大，表示 A 个类的类间偏差平方和的 
总和私在总离差平方和 T 中占的比例越大，这说明々个类越能够 
区分开•因此尺 * 2 统计量可用于评价合并为々个类时的聚类效果•於 
越大，聚类效果越好. 

Rl 的值总是在0和1之间，当;2个样品各自为不同的类时 ( r = 
从），杧=1;当 n 个样品最后合并成同一类时(了=尸„)，和= 0,而且 
R l 的值总是随着分类 个数々 的减少而变小.如果孤立地看每次合并 
后的值，其意义是不 大的. 如果希望通过分析值来确定 W 个样 
品应分为几类最合适，则应该看死值的变化.比如，在分为4个类之 
前的并类过程中祀的值减少是逐渐的，改变不大；假定分为4类时 
的 ^ = 0. 707,而下一次合并后分为3类时祀的值下降较多，比如 
^3 = 0. 402,这时通过分析祀统计量的变化可得出，分为4个类是较 
合适的. 

(2) 半偏尺 2 统计量： 
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半偏杧= B\JT = 杧 +1 —杧， 

其中 B 2 KL = Wm 一 （ W ' k + W ' l )， 表亦合并类和 Gi 为新类 Gm 后类 
内离差平方和的增值，该统计量用于评价合并和 Gi 的效果.根 
据以上定义，半偏 M 的值是上一步骤 对 +1 与该步骤圮的差值，故 
查看於变化的大小可以得到半偏某步骤 半偏乂 的值越大，说 
明上一次合并为 k + 1 个类后的效果好，该统计量用于评价一次合并 
的效果. 

(3) 伪 F 统 计董： 

„ ( T - F *)/(* - 1) B k n-k 

伪匕= / v ( m 卜1， 

该统计量用于评价分为々个类的聚类效果，伪^值越大表示 这”个 

样品可显著地分为々个类.伪^统计量可以作为确定类个数的有用 

指标，但并不具有像 F 统计量的分布 • 

(4) 伪统 计量： 

、 ■> b kl 

该统计量用以评价此步骤合并类和 Gi 的 效果. 由伪 f 2 统计量的 
定义知，该值大，即表示 Gx 和 Gi 合并为 G m 后类内离差平方和的增 
量相对于 G K 和 Gi 两类的类内离差平方 和大. 这表明上一次被 
合并的两个类是很分开的，也就是上一次聚类的效果是好的•伪 P 
统计量可以作为确定类个数的有用指标，但并不具有像随机变量 f 
那样的分布. 

4. 根据谱系图确定分类个数的准则 

Beminn en (1972) 提出了应根据研究的目的来确定适当的分类 
方法，并提出了 一些根据谱系图来分析的 准则： 

准则 A 各类重心之间的距离必须很大； 

准则 B 确定的类中，各类所包含的元素都不要太多； 

准则 C 类的个数必须符合实用目的； 

准则 D 若采用几种不同的聚类方法处理，则在各自的聚类图 
中应发现相同的类. 

应该指岀，关于类个数如何确定问题，至今还没有一个合适的标 



§6.4 系统聚类法的性质及类的确定 243 


准,也就是说对任何观测数据都没有唯一正确的分类方法. 

例 6. 4. 1 表 6. 7是我国16个地区农民在1982年支出情况的 
抽样调查数据的汇总资料，每个地区都调查了反映每人平均生活消 
费支出情况的六个 指标. 试利用调查资料对16个地区进行分类. 

解 对数据作标准化变换，样品间距离定义为欧氏距离,系统聚 
类的方法分别使用类平均法、中间距离法、可变类平均法和离差平方 
和法.利用这几种方法所得到的并类过程及谱系聚类图都是相似的. 


表 6.7 16 个地区农民生活水平的调查数据 （单位 ：元) 


地区 

食品 

( X ,) 

衣着 

( X 2 ) 

燃料 

( X 3 ) 

住房 

( X 4 ) 

生活用品及 
其他 ( X 5 ) 

文化生活服务 
支出 ( x 6 ) 

北京 

190. 33 

43. 77 

9.73 

60. 54 

49.01 

9. 04 

天津 

135. 20 

36. 40 

10.47 

44. 16 

36. 49 

3. 94 

河北 

95. 21 

22.83 

9. 30 

22.44 

22.81 

2.80 

山西 

104. 78 

25. 11 

6. 40 

9.89 

18. 17 

3. 25 

内蒙古 

128.41 

27. 63 

8.94 

12.58 

23. 99 

3. 27 

辽宁 

145. 68 

32.83 

17.79 

27.29 

39. 09 

3.47 

吉林 

159. 37 

33. 38 

18.37 

11.81 

25.29 

5.22 

黑龙江 

116.22 

29.57 

13. 24 

13.76 

21. 75 

6. 04 

上海 

221.11 

38. 64 

12.53 

115.65 

50.82 

5. 89 

江苏 

144, 98 

29. 12 

11. 67 

42.60 

27. 30 

5. 74 

浙江 

169.92 

32.75 

12.72 

47. 12 

34. 35 

5. 00 

安徽 

153. 11 

23. 09 

15.62 

23. 54 

18. 18 

6. 39 

福建 

144. 92 

21.26 

16. 96 

19.52 

21. 75 

6. 73 

江西 

140. 54 

21.50 

17.64 

19. 19 

15. 97 

4. 94 

山东 

115. 84 

30.26 

12.20 

33.61 

33. 77 

3.85 

河南 

101. 18 

23. 26 

8.46 

20. 20 

20. 50 

4. 30 


输出 6 . 4 . 1给出使用类平均聚类法的并类 过程； 由输出 6. 4. 2给 
出的谱系聚类图，易得出分为二类、三类、四类等的分类结果.应该分 
为几类最合适？输出 6 . 4 .1中有如下几个统计量提供了有用的 信息： 
(1) 统计量（列标题为 RSQ ®) 用于评价每次合并成 NCL 

个类时的聚类 效果. 现考察尺纟0_的值随 NCL 的变化.比如，在分为 
四个类之前 ( NCL >4) 的并类过程中尺^_的减少是逐渐的，改变不 


①输出结果中每一列的列标题根据输出页的宽度不同，或为完整的英文标题，或为 
英文缩写，这里 RSQ 是英文缩写. 
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输出 6. 4. 2类平均聚类法的谱系聚类图 



大; 当分为四个类时的和 = 0. 697,而下一次合并后分为三个 类时乂 
下降较多 (M = 0. 502)，由此通过对浐统计量的变化分析可得出分 
为四个类是较合适的. 

(2) 查看变化的大小可以由半偏 ^4 x( 列标题为 SPRSQ) 
得到.根据半偏 i^cL 的值是上一步骤/^«_ +1 与该步骤的差值， 
故某步骤的半偏值越大，说明上一步骤合并的效果越好.此例 
半偏 i^cx 最大和次大分别为 NCL = 1， 3 和4,说明根据半偏圯准则 
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分为两个类、四个类或五个类是较合适的. 

(3) 伪 F 统计量(列标题为 PSF) 用于评价分为 NCL 个类的聚 
类效果•伪 F NQ _ 值越大表示这些观测样品可以显著地分为 NCL 个 
类.此例中伪 F NCL 最大和次大分别为 NCL = 5 和 2( 当 NCL<6)， 说 
明根据伪 F 准则分为五个类或两个类是较合适的. 

(4) 伪 f 统计量(列标题为 PST2) 用以评价此步骤合并类的效 
果.由该统计量的定义知，伪^值大表明上一次合并的两个类是很 
分开的，也就是上一次聚类的效果是好的.此例中伪最大和次大 
分别为 NCL = 1，3 和4,说明根据伪 准则分为两个类、四个类或五 
个类是较合适的. 

从以上分析可以 看出： 半偏尺 2 准则支持分为两类、四类和五 
类； 伪 F 统计量支持分为两类或 五类； 伪统计量支持分为两类、四 
类或五类.综合分析，认为采用类平均法分类，将16个地区分为两类 
或五类较合适.分为五类的结 果为： G： 5, = {北京 } ， G; 5) = { 上海 } (各 
1个地区）， G〗 5) ={ 天津，山东，江苏，浙江，辽宁，吉林 } (六个地区）， 
G! 5) ={ 黑龙江，安徽，福建，江西 } (四个地区）， G〗 5) = { 河北，河南， 
山西，内蒙古}(四个地区)•若分为两类，则 G; 2) = {G; 5> ，d Gf 

_ < 广 （5) 广（5) /~»(5) \ 

= 1^3 ♦'- 7 5 > • 

用 Ward 法分类可以 得出： 记准则支持分为两类、三类和 四类； 
伪 F 统计量支持分为四类或五类；伪统计量支持分为两类、三类 
或四类.综合分析，认为采用 Ward 法分类，将16个地区分为两类或 
四类较合适.分为四类的结 果为： 北京，上海 } (二个地区）， 
Gf={ 天津，山东，江苏，浙江，辽宁，吉林 } (六个地区），黑 
龙江，安徽，福建，江西}(四个地区）， d 4> ={ 河北，河南，山西，内蒙 
古}(四个地区).若分为两类，则 GT=G; 4> ，G; 2> ={Gf，Gr，Gf}. 

不同的聚类方法得到的结果或多或少都有些差别.在实际应用 
中，应综合各种计算结果，提出合适的分类结果.比如此例把16个地 
区的农民生活消费支出情况分为五类，并计算出各类地区农民生活 
平均消费水平(见表 6. 8). 由表 6. 8可见第一类属低消费水平，第二 
类属中等消费水平，第三类消费水平较高，而北京市和上海市的农民 













类，就得到初始分类.动态聚类法的聚类过程可用下面框图描述. 


是 



杏 


修改分类 


— 、选择凝聚点和确定初始分类 

凝聚点就是一批有代表性的点，是欲形成类的中心的点.凝聚点 
的选择直接决定初始分类，对分类结果也有很大的影响.由于凝聚点 
的不同选择，其最终分类结果也将出现不同，故选择时要慎重.通常 
选择凝聚点的方 法有： 

(1) 人为 选择： 当人们对所欲分类的问题有一定了解时，根据 
经验，预先确定分类个数和初始分类，并从每一类中选择一个有代表 
性的样品作为凝聚点. 

(2) 将所有样品人为地分为々类，计算每一类的重心，并将这些 
重心作为凝聚点. 

(3) 用密度法选择凝 聚点： 以某个正数^为半径，以每个样品 
为球心，落在这个球内的样品数(不包括作为球心的样品）就叫做这 
个样品的密度.计算所有样品点的密度后，首先选择密度最大的样品 
作为第一凝聚点，并且人为地规定一个正数 1)( 一般 Z )> 山常取 D = 
2 d ). 然后选出次大密度的样品点，若它与第一个凝聚点的距离大于 
D ， 则将其作为第二个凝 聚点； 否则舍去此点，再选密度次于它的样 
品.这样，按密度大小依次考察，直至全部样品考察完毕为止.此方法 
中，要给的合适，太大了使凝聚点个数太少，太小了使凝聚点个数 
太多. 

(4) 人为地选择一正数 A 首先以所有样品的均值作为第一凝 


选凝聚点- H 初始分类 
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生活水平比较富裕，属高消费水平. 


表 6. 8 16个地区的分类及平均消费水平 


类 别 

第一类 

第二类 

第三类 

第四类 

第五类 

该类所包含 

河北，河南! 

黑龙江，安徽 

天津，山东，江苏 

北京 

上海 

的地区 

山西，内蒙古 j 

福建，江西 

浙江，辽宁，吉林 

食品平均消费 

107. 395 

138. 698 

145. 165 

190.33 

221. 11 

衣着平均消费 

24. 708 

23. 855 

32. 457 

43. 77 

38. 64 

燃料平均消费 

8.275 

15.865 

13. 870 

9.73 

12.53 

住房平均消费 

16. 278 

19. 000 

34.431 

60. 54 

115. 65 

生活用品以及 
其他平均消费 

21.368 

19.413 

32. 715 

49. 01 

50.82 

文化生活服务 
支出平均消费 

3. 405 

6.025 

4. 537 

9. 04 : 

5. 89 


§ 6.5 动态聚类法 

系统聚类法一次形成类以后就不能改变了，这就要求一次分类 
分得比较准确，对分类的方法就提出较高的要求，相应的计算量自然 
也比较大.如 Q 型系统聚类法，聚类过程是在样品间的距离矩阵基 
础上进行的，当样本容量很大时，需要占据足够大的计算机内存空 
间; 而且在并类过程中，需要将每类样品和其他类样品间的距离逐一 
加以比较，以决定应合并的类别，故需要较多的计算时间.所以对于 
大样本问题， Q 型系统聚类法可能会因计算机内存或计算时间的限 
制而无法进行，这给应用带来一定的不便.基于这种情况，产生了动 
态聚类，即 动态聚类法. 

动态聚类法又称为逐步聚类法,其基本思想是，开始先粗略地分 
一下类，然后按照某种最优的原则修改不合理的分类，直至类分得比 
较合理为止，这样就形成一个最终的分类结果.该方法具有计算量较 
小，占用计算机内存空间较少，方法简单的优点，适用于大样本的 Q 
型聚类分析. 

为了粗略地分一下类(简称为初始 分类） ，有时需要先选一批“凝 
聚点”，然后让样品向最近的凝聚点聚集，这样由凝聚点聚集形成的 


最终分类 
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聚点，然后依次考察每个样品，若某样品与已选定的凝聚点的距离均 
大于么该样品作为新的凝聚点，否则考察下一个样品. 

(5) 随机地选择.如果对样品的性质毫无所知，可采用随机数表 
来选择，打算分几类就选几个凝聚点，或者就用前々个样品作为凝聚 
点(假设分 A 类).这个方法一般不提倡使用. 

确定初始分类常用的方 法有： 

(1) 人为分类，凭经验将样品进行初步分类. 

(2) 选择凝聚点后，每个样品按与其距离最近的凝聚点归类. 

(3) 选择一批凝聚点后，每个凝聚点自成一类，将样品依次归入 
其距离最近的凝聚点所在的类，并重新计算该类的重心，以代替原来 
的凝聚点，再考虑下一个样品的归类，直至所有样品都归类为止. 

(4) 先将数据作标准化处理，仍用 X ,.,表示标准化 后第〗 个样品 
的第）个指标.令 

m 

工 “ = R = max x,. — min x,.. 

如欲将全部样品分为々类，对每个样品 计算： 

(k — l)(x,.. — minx,.) 

R + 1 - 

假设与这个数接近的整数为则将样品 Xm 归入第/类 

(5) 用某种聚类方法得到一个分类，将其作为初始分类.当样本 
量大时，有时只用部分样品按某种聚类方法进行分类，如用每类重心 
作为凝聚点，再用 （2) 或 (3) 的方法对全部样品归类后得初始分类. 

二、逐步聚类法 

逐步聚类的不同方法主要是以修改分类的不同原则来区分的， 
常用方法有按批修改法，逐个修改法等.本节重点介绍按批修改法. 

1. 按批修改法 

(1) 按批修改法的 步骤： 

步骤1:选择一批凝聚点（个数人为指定），并选定所用距离定 


X ； 
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步骤2:将所有样品按与其距离最近的凝聚点 归类； 

步驟3:计算每一类的重心，将重心作为新的凝聚点，转到步骤 
2.如果某一步骤所有的新凝聚点与前一次的老凝聚点重合，则过程 
终止.有时不绝对要求这个过程收敛，而是人为规定这个修改过程重 
复若干次就行了. 

(2) 分类 函数： 假设 G' = l，2, …， n) 为 n 个样品点，初始分 
为 是类： 6 1 石 2 ，."而，它们的重心记为又 (1) ，又 <2> ，〜，又 ( * ) ，每类的样 
品数记为〜（£=1，2,…，々）.用表示样品所属类的标号，如 
6 = 2表示第1个样品属第2类. 

样品到类的距离 A , 定义为 

Di = (x U) -x^y{x (n -x^), 

则分类函数定 义为： 

n 

/(G a ,G 2 , — ,G*) = 

上式定义的分类函数，实质上就是系统聚类分析中的离差平方和 

W， 其中取= ilV ,， 而为 G, 类样品的离差平方和. 

按批修改法的修改原则就是使这个分类函数逐渐减小，直至不 
能再减小为止. 

例 6. S .1 已知5个样品的观测 值为： 1，4,5,7，11.试用按批修 
改的动态聚类法对5个样品进行分类. 

解 （1) 选凝 聚点： 用密度法，取 d =2 ，D = 4; 采用欧氏距离. 
各点的密度如下表 所示： 



X ⑴ 

X(2) 

X (3) 

X ⑷ 

X( 5 ) 

密度 

0 

1 

2 

1 

0 


第一个凝聚点选，因 X (2) , X (4) ig 不 3> 的距离 < D ， 第二个凝聚点 
选； (:⑴ ，第三个凝聚 点选； 

(2) 初始 分类： 按最小距离的原则将所有样品归类，结 果是： 
cr = {W 4) }，GT = <X (1) }, Gf = {X (5) }. 

(3) 修改 分类： 首先计算各类重心，它们分别是 5 f ， l ,11 .再以 
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它们作为新凝聚点,按最小距离原则归类，结 果是： 

= {X (3) ,X (2) ,X (4) }, = {X (1) }, G< u = {X (5) }. 

这三类的重心仍然为 5 |，1，11, 因此过程终止.最终分类就是 G , (1) 
( i ' = l ,2,3). 

附注 1按批修改法的优点是计算量小，速度快，但其分类结果 
依赖于凝聚点的选择.若选 ， X <5 ，作为凝聚点，则最终分类是： 

Gi = } ， G 2 == {X( 5 )}. 

若选 X ⑴， X (5) 作为凝聚点，则最终分类是： 

G, = {X ⑴， H 3) }，G 2 = {X (4) ,X (5) }. 

附注2 在按批修改法中，有人将步骤3改为：计算每一类重 
心，取老凝聚点与重心联线的对称点作为新凝聚类，转到步骤2.如 
果某一步骤所有新凝聚点与前一次的老凝聚点重合，则过程终止.这 
样做在某些场合会得到更好的分类结果. 

2. 逐个修改法 

按批修改法是当样品全部归类后才改变凝聚点.另一种自然的 
想法是每对一个样品进行分类后，同时改变凝聚点，这就产生了逐个 
修改法.逐个修改法在许多教科书上称做均值法.逐个修改的方 
法不止一种，以下介绍常见的一种，它的聚类步 骤是： 

步驟1:规定样品间的距离，人为地定出三 个数： / C (分类数 ）， C 
(类间距离的最小值)和尺(类内距离的最大 值）; 取前 K 个样品点作 
为凝聚点. 

步驟2:计算这 K 个凝聚点两两之间的距离，如最小的距离< 
C ， 则将相应的两个凝聚点合并，用这两个点的重心作为新凝聚点， 
再重复步骤2,直至所有凝聚点之间的距离均为止. 

步驟3:将剩下的 n - K 个样品逐个归类，对每一个样品，计算 
该样品与所有凝聚点的距离，如最小距离 >尺，则该样品作为新凝聚 
点； 如最小距离，则将该样品归入与它距离最近的凝聚点所在的 
类，随即重新计算这一类的重心，以重心作为新的凝聚点.如凝聚点 
之间的距离都 > C ，则考虑下一个样品，否则用步骤2进行合并后再 
考虑下一个样品，直至所有样品都归了类. 
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步骤4:将样品从头至尾再逐个按步骤3进行归类，不同之处 
是： 某个样品归类后，如分类与原来一致，则重心不必 计算; 如分类 
与原来不同，则涉及到的两类重心要重新计算. 

如果新的分类与上一次相同，则聚类过程结束，否则重复步骤 4. 
例 6. S. 2 对例 6. 5. 1的5个样品用逐个修改法进行聚类. 

解 (1) 用欧氏距离，取 K = 3，C=2，i?e3 .取X⑴， X( 2> ，X( 3 ) 作 
为凝聚点. 

(2) 计算凝聚点之间的距离，^(1,2) = 3, o?(l,3) = 4, ^(2,3) 
= 1<C = 2, 将X⑵和乂 (3) 合并(记为新2 类： 2*), 它们的重心是 
(4+5)/2 = 4. 5,它与 X„, 的距离^(1,2') = 3. 5>2.凝聚点有 两个： 
1和 4. 5;相应的两类记为 G 和 G 2 . 

(3) 考虑样品叉⑷，它与两凝聚点的距 离为： ^( G m 4) = 6, 
3(0 2 ,4) = 2.5，最小值2.5<3，不能作为新凝聚点，归入& ; 再考虑 
X (5 ) « H (i(Gi，5) = 10, d(G 2 ,5) = 6. 5, 最小值 6. 5>3,故 X( 5 ) 作为 
新凝聚点单独成一类. 

至此我们得到 三类： G, = {X n ,}, G 2 ={X m ,X, 3) ,X w }, G 3 = 

{X(5) }• 

(4) 将样品从头至尾按上面的 （3) 进行归类.聚类结果同上.故 
聚类过程结束，并得到最终分类为 G，G 2 ，G 3 . 

附注 1逐个修改法的最终分类与样品的考虑顺序有关，一般 
按；5： ⑴⑸ 次序，如果按 X <5) =^X ⑴ 的次序考虑，不变， 
则分类结 果为： 

Gl = {-X^(5) } > G 2 — {U，= {X(2) >X(3) } , G 4 = {X(D }. 

由于分类结果与样品归类的次序有关，逐个修改法开始选凝聚点时 
最好选有代表性的点，而不是简单的取前尺个样品，这样聚类结果 
会合理一些. 

附注2 逐个修改法的最终分类与三个参数有关，因此在计算 
过程中最好让这三个参数作适当变化，最后根据实际问题的要求取 
舍聚类结果. 

例 6. S. 3试用 SAS/STAT 软件的 FASTCLUS (快速聚类） 
过程对16个地区农民生活水平的调查数据进行分类. 
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-0.7784^ 
>0.02619 
-0.89392 
1 .38688 
1.16391 


1.0-4836 

3.12B87 

-0.3B86I 

-0.20569 

-0.49B74 



CLUSTER DISTANCE 

1 0.00000 

2 0.00000 

3 0.70731 

3 0.64693 

3 0.84370 

3 0.64426 

4 1.30193 

4 1.19017 

4 1 .71508 

4 1.10310 

4 1.16730 

5 1.17739 

5 1 .45351 

5 0.62637 

5 0.92034 

5 1.18491 


输出 6. 5. 2动态聚类的分类结果(数据标准化） 


由输出 6. 5. 1 中可以看出， 5 个初始凝聚点是从标准化数据集 
中按指定规则选取的 5 个观测样品.输出 6. 5. 2 给出了分类的结果， 
分类结果类似数据标准化后的系统聚类法. 
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在以上几节讨论的问题中，样品是相互独立的，因而分类时彼此 
是平等的•但在有些实际问题中，要求样品分类时不能打乱次序.例 
如在油田勘探中，需要通过岩心了解地层的结构，故而要求对地层的 
不同结构进行分类•这时岩心所在的位置（即样品的次序)在分类时 


解 为使用动态聚类法对例 6.4.1 中表 6. 7 给出的 16 个地区 
的农民在 1982 年支出情况的抽样调查资料进行分类，首先对数据进 
行标准化，然后使用 FASTCLUS (快速聚类)过程对标准化后的数 
据进行动态聚类. 


输出 6. S .1 动态聚类的初始凝聚点(数据标准化) 



4 4 7 2 3 
^7028 
2 0 4-35 
854-36 
4 53-3 0 

2 0 10 1 


JP 古 江 

OUI 京海北叫蒙 南津亇 林江东龙苏撤建西 
GR 北 h 河山内河天辽古浙 II] 黑江安福江 


S 1234567890123456 
06 . 
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不能打乱•如果用 X ⑴， X ⑵，…， Xoo 表示《个有序的样品，则每一类 
必须是这样的形式： { X (,)， X (;+”，.”， X (, .+*)}，其中 H 

，即同一类样品必须是互相邻接的•这种分类问题称 为有序 
样品聚类法 ，也称 为最优分割法 • 

设有 n 个有序样品 X ⑴，，其中每个样品有 w 个指 
标，即 X ( 0 G = l , … ，”） 为 m 维向量•”个样品分成々类的一切可能 
分法有 cti 种，这比不相关样品的可能分法要少得多，故在„不大的 
情况下，有可能讨论所有可能的分类结果，并有可能在某种损失函数 
意义下，从中求得最优解.本节介绍费希尔发展的一个算法，它可保 
证求得最优解，故此法称为最优分割法，又称为费希尔算法. 

系统聚类法开始时将《个样品 X ⑴， 不 2> ，…， Xo ■，分成”类 ，然 
后逐步并类，直到所有样品并成一类为止•而最优分割法则相反，开 
始时将所有样品归为一类，然后分成两类 、三 类等等，直到分为; z 个 
类•这是两种不同类型的聚类方法，但最优分割法定义分类的损失函 
数的思想类似于系统聚类方法中的 Ward 法，即要求分类后产生的 
离差平方和的增量最小. 

一、 最 优分割法的聚类步骤 

设有序样品依次为 X ⑴， X ⑵，…， X („) «(,) 为 W 维向量). 

1. 定义类的直径 

设某一类 G 包含的样品有 { X ( o . X (,+ d , ••• , X 0) } ( y >?) ，记为 
G = U ，*_ + 1， •该类的均值向量又 6 .为 



用 / XD ) 表示这一类的直径，常用的直 径有： 

> 

D(i 2 (X ⑴一 X G ) f (X U) — Xg), (6. 6. 1) 

t=i 

当 w = l 时，也可以定义直径为 
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L\^P(.jt-i >^ — 1 )] = L\P ( jk-\ — 1 ,/t —2)]+D( jt-i, j k — 1 ) ， 
得到第 々一1 类! + ：!，…， A —1}. 类似的方法依次可 
得到所有类 GpQ ，…，，这就是我们欲求的最优解，即 
P(n,k)= {Gi ， G 2 ,"'" ,Gk}. 

总之，为了求最优解，主要是计算 

下面通过一个例子来说明最优解的具体求法. 

二、应用简例 

例 6 . 6. 1 为了了解儿童的生长发育规律，今统计了男孩从出 
生到11岁每年平均增长的重量如下表所示.试问男孩发育可分为几 
个阶段？ 


年龄/岁 

1 23456789 10 11 

增加重量 /kg : 

9. 3 1.8 1. 9 1.7 1.5 1. 3 1.4 2.0 1.9 2. 3 2. 1 


解 这是一个有序样品的聚类问题，我们用最优分割法来进行 
聚类.输出 6. 6. 1首先给出男孩每年体重的增加随年龄的变化规律 
图.由此图可直观地看出，男孩发育确实可以分为几个阶段. 

输出 6. 6. 1男孩每年体重的增加随年龄的变化 
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其中是这一类数据的中位数. 

2. 定义分类的损失函数 

用表示将《个有序样品分为6类的某一种分法.常记分 
法 b ( n ， k ) 为: 

G y = {n,2'i + 1，••• “ 2 — 1 } ， 

G 2 — + I，... “.3 — 1 }. 


G * = {/*“■* + 1，...，”} ， 

其中分点为 1= z ’ i </ 2 <*—3 〈… = — 1( 即 u+i=n + l)- 

定义上述分类法的损失函数为 

k 

L[>(n ，々） ] = ^D(i t ,i t+l - 1). (6. 6. 2) 

/=1 

当 《，々固定时， LO(«，A)] 越小，即表示各类的离差平方和越小，分 
类是合理的，因此要寻找一种分法6(«，々），使分类损失函数1达最 
小.记是使 (6. 6. 2) 式达到极小的分类法. 

3. L[6(« ， K)] 的递推公式 

费希尔算法最核心的部分是利用以下两个递推 公式： 
|L[P(n,2)] = min {D(l ,j — 1) + D{j,n)}, 

2<j<n 

'Lr/Hw, 是 )] =min {L [ 尸 (_; — 1 ，々 — 1)] + D(j,n)}. 

(6. 6.3) 

以上两个公式由 （6. 6. 2) 式及 PU4) 的定义即可证明 •（6. 6. 3) 式 
的第二式表明，若要寻找将《个样品分为 A 类的最优分割，应建立在 
将 j 一 1个样品分为 A— 1类的最优分割基础上(这里）=2,3, …， n). 

4. 最优解的求法 

若分类数 A (1<A<«) 已知，求分类法 P(n，《， 使它在损失函数 
意义下达最小，其求法 如下： 

首先找分点 >，使递推公式 (6. 6. 3) 达极小， SP 

L[P(” ，々 )] = L\^P{j k — 1 ，々 一 1)] + D(j t ,n). 

于是得第 々类 G*= { jk,jn + l »•" >«}. 然后找 _7*-i， 使它满足 
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标(即 m = l ) ，由 （6. 6. 1) 式的定义，故有 

= 2(X (I) -X G ) 2 . 

/=*» 

例如计算 ZX 5 ，7)，此时类 G 包含三个样品 { X (5) , X (6) , X (7) } ，故有 
Xc = "^"(1. 5 + 1. 3 + 1. 4) = 1. 4， 

£»(5,7) = (1.5 - 1.4) 2 + (1. 3 — 1. 4) 2 + (1. 4 - 1. 4) 2 = 0. 02. 

表 6. 9直径 DG ， j ) 



1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

2 

28. 125 










3 

37. 007 

0.005 









4 

42. 208 

0 . 020 

0 . 020 








5 

45. 992 

0.088 

0.080 

0 . 020 







6 

49. 128 

0.232 

0 . 200 

0 . 080 

0 . 020 






7 

51. 100 

0.280 

0 . 232 

0 . 088 

0 . 020 

0 . 005 





8 

51.529 

0.417 

0 . 393 

0 . 308 

0.290 

0 . 287 

0. 180 




9 

51 . 980 

0.469 

0 . 454 

0 . 393 

0.388 

0 , 370 

0 . 207 

0 . 005 



10 

52. 029 

0 . 802 

0 . 800 

0 . 774 

0 . 773 

0 . 708 

0 . 420 

0 . 087 

0 . 080 


11 

52. 182 

0 . 909 

0 . 909 

0 . 895 

0 . 889 

0 . 793 

0.452 

0 . 088 

0 . 080 

0 . 020 


(2) 计算最小分类损失函数 {[[■?(/,/ O ]，3« ll ，2<々<10}， 
即分别计算将/个样品分成两类、三类…时，最优分割的损失函数， 
所有结果列于表 6.10. 


表 6. 10最小分类损失函数 



2 

3 

4 

5 

6 

7 

8 

9 

10 

3 

0.005(2) 








HI 

4 

0.020(2) 

0.005(4) 








5 

0.088(2) 

0.020(5) 

0.005(5) 







6 

0.232(2) 

0. 040(5) 

0.020(6) 







7 

0.280(2) 

0. 040(5) 

0.025(6) 


0.005(6) 





8 

0.417(2) 

0. 280(8) 

0.040(8) 


0.010(8) 

0. 005(8) 




9 

0.469(2) 

0. 285(8) 

0.045(8) 


0.015(8) 

0.010(3) 




10 

0.802(2) 

0. 367(8) 

0.127(8) 

SB 

0. 030(10) 

0.015(10) 




11 

0.909(2) 

0. 368(8) 

0.128(8) 

0. 065(10) 




WBA 

EB9 


首先，计算 { i [>( Z ，2)]，3</< ll } (即表 6.10 的第一列），如 
/=3时由递推公式 (6. 6. 3) 及表 6. 9 可得： 
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L [ 尸（ 3,2)]= min {£>(1,7-1) +D(_/ ， 3)} 

2<7<3 

= min { D ( l , l ) + D (2,3), D (1,2) + D (3,3)} 

= min {0 + 0. 005,28.125 + 0} = 0. 005. 

上式表示将三个样品分为两类，共有两种可能 分法： {1}，{2,3} ; 或 
{1，2}，{3}，这两种分法的最小损失函数为 0. 005( 即前一种分法). 
因为这个最小值在 >=2时达到，记为 0. 005(2). 类似的，当/ = 4 
时有： 

L [ 尸（ 4,2)]= min {D(l,j — 1) + £>(>,4)} 

= min { D ( l , l ) + D (2,4), D (1,2) + D (3,4), 
D ( l ，3) + D (4,4)} 

= min {0. 020,28.145,37. 007} = 0.020. 

最小值在 )=2 时达到，记为 L [ F (4,2)] = 0. 020(2) .表 6. 10中走= 
2的那一列，括弧中的数字都是2,表示对一切形如{ X ⑴， X ⑵，…， 
X (/) } (3< Z <11) 的类，如欲分成两类都以 G 2 ={ X ( 2) , 
…，的分法为最优，它使分类损失函数达到极小. 

其次，计算{上[尸（/，3)],4</<11},如/ = 4时由递推公式 
(6. 6. 3) 第二式、表 6. 9及表 6. 10第一列可得： 

L [ P (4,3)]= min { L [ P (2,2)] + D (3,4), L [ P (3,2)] + D (4,4)> 
= min {0 + 0. 020,0. 005 + 0} = 0. 005. 

表 6. 10中第二列 a = 3) 的其余各项的计算方法也 类似. 同样，对表 
6. 10中々= 4,5,…，10的其余各列的计算方法也类似.各列括弧内 
的数字含义同上. 

(3) 求最优分类.假如我们希望分成三类，即々 = 3,由表 6. 10最 
后一行査得 L [ P (11，3)] = 0. 368,括号中数字为8,这说明最优解的 
分类的损失函数是 0. 368,分类时首先分出第三类 G 3 ={ X ⑻〜 
X (11) }. 再对其余的7个样品考虑分为两类的最优分法，查表 6. 10中 
/ =7 ,/fe = 2 的位置得 L [ F (7,2)] = 0. 280,括号中数字为2,故 
G 2 = {X ( 2 ： ) 〜 X (7 )} , Gj = 

从而求得最优分类 

尸（11， 3) : {叉⑴ } ， { X "(2) 〜又⑺ } ， { X ( 8 ) 〜 X ( n ) }• 
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(4) 决定如果从生理角度预先能定出々，当然最好，这样从表 
6. 10即可知道如何分类.有时事先不能确定 I 这时可作出 LlP ( n , 
是)]随々变化的趋势图，如此例作出的图形见输出 6. 6. 2. 从该输出我 
们看到曲线在 k = 3 A 处拐弯，即分三类或四类为好. 

最优分割法虽然计算简单，但是当《很大时，由于要存贮直径 
{ DG ， j )}， 对容量不大的计算机还是有困难的. 

輪出 6.6. 2损失函数 Z > DP (»,/0] 随 A 变化的趋势图 


{9. 3,1. 8, 1.9,1. 7,1. 5, 1. 3,1. 4,2. 0,1. 9, 2.3,2. 1} 

{9.3},{1.8,1. 9,1. 7,1. 5,1. 3,1. 4,2. 0,1. 9, 2.3,2. 1} 

{9.3},{1.8,1.9,1.7,1. 5, 1.3,1.4},{2.0,1.9,2.3,2.1} 
{9.3},{1.8,1.9,1. 7},U.5,1.3,1.4},{2.0,1. 9, 2.3,2.1} 

{9.3},{1.8,1.9,1. 7},{1.5,1.3,1.4},{2.0,1. 9},(2.3,2.1} 

{9. 3}, {1.8,1. 9, 1.7}, {1.5,1.3,1.4}, {2. 0,1. 9}, {2. 3}, {2.1} 

{9. 3}, {1.8,1.9), {1.7}, {1.5,1.3,1. 4}, {2. 0,1. 9}, {2. 3}, {2. 1} 

{9.3},{1.8,1. 9Ml.7Ml.5Ml. 3, 1.4},{2.0,1. 9} ， {2. 3},{2.1} 

{9. 3}, {1.8}, {1.9}, {1.7}, {1.5}, {1.3,1.4}, {2. 0,1. 9}, {2. 3}, {2.1} 

{9. 3}, {1.8}, {1.9}, {1.7}, {1.5}, {1.3}, {1.4}, {2. 0,1. 9}, {2. 3}, {2.1} 
{9.3},{1.8},{1.9>,{1.7},{1.5},{1.3},{1.4},{2.0},{1. 9} , {2. 3} , {2. 1 } 


当是取其余值时，分类情况列于表 6. 11. 

表 6. 11分类情况 


. 5 . 0.5 
L1.0. 

【(* HW )』7 淼圈來辑 
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三、分类个数的确定 

分类数々的确定对许多问题都很重要，上面给出的方法是通过 
lLp («，/0] 对&作图，在曲线拐弯处来确 定々. 当曲线拐弯很平缓 
时，可以选取的 々很多 ，这时需要有其他的办法来确定，比如均方比 

和特征根法(省略). 

§ 6. 7 变量聚类方法 

在本章§ 6. 1 已提到，聚类分析根据分类对象的不同可分为 Q 
型(对样品）和 R 型（对变 量). 前面几节讨论的内容是 Q 型聚类问 
题，即对样品进行聚类的问题•在实际工作中，对所考察的一些变董 
进行分类也是十分重 要的. 在统计分析中，为了避免遗漏重要因素， 
人们往往初始选取所考察的变量时，总是尽可能多地考虑所有相关 
的因素.而这样做的结果则是需要考察的变量过多’变量间的相关性 
也较大，给统计分析带来很大的不便•因此人们常常希望研究变量间 
的相似 关系，按照变量的相关关系把它们聚合为若干类，然后观察和 
说明影响系统特性的主要特征- 

一、 变量分类的系统聚类法 

使用类似于 Q 型聚类分析中最常用的系统聚类法的思路和基 
本步骤对变量进行聚类.具体操作时可以采用以下两种方法： ^ 

(!) 可以把观测数据阵中样品和变量的地位调换一下，也就是 
把数据阵作一转置，然后仍使用 CLUSTER 过程对变量进行聚类. 
此方法使用虽简单，但没有考虑到使用相似系数或相关系数作为变 
量相关性的度量比使用距离要更合适些，故聚类的效果也许不尽如 

人意. 

'(2) 计算变量间的相关(或相似)系数矩阵尺，然后 按 §6 . 2 中小 
节三“变量间的相似系数和距离”中的定义把相关 (或相似) 系数矩阵 
转^为距离矩阵.用此距离矩阵作为 CLUSTER 过程的输入数据 
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阵，实现对变量进行分类的目的. 

例 6. 7. 1 对305名女中学生测量8项体型指标：为身高， 
X 2 为手臂长， X 3 为手肘长， X 4 为小腿长，为体重，为颈围 ， X 7 
为胸围， X 8 为 胸宽. 表 6. 12是由305名中学生的观测数据计算得到 
的相关系数阵.试对8个体型变量进行分类. 


表 6. 12 8个体型变量的相关系数阵 


■ 

X x 

x 2 


x 4 

x 5 

X 6 

x 7 

x 6 

X ! 

1.000 

0. 846 

0. 805 

0. 859 

0. 473 

0. 398 

0. 301 

0. 382 

X 2 

0. 846 

1. 000 

0.881 

0.826 

0. 376 

0.326 

0.277 

0.415 

x 3 

0. 805 

0.881 

1.000 

0.801 

0. 380 

0.319 

0. 237 

0. 345 

X , 

0.859 

0. 826 

0. 801 

1.000 

0. 436 

0.329 

0.327 

0.365 

Xs 

0.473 

0. 376 

0. 380 

0. 436 

1.000 

0. 762 

0. 730 

0. 629 

Xe 

0.398 

0. 326 

0.319 

0. 329 

0. 762 

1.000 

0. 583 

0.577 

x 7 

0. 301 

0. 277 

0.237 

0. 327 

0. 730 

0.583 

1.000 

0. 539 

x 8 

0. 382 

0.415 

0. 345 

0.365 

0. 629 

0.577 

0.539 

L 000 


解 表 6. 12给出了 8个变量的相关系数阵，首先把相关系数转 
换为距离，令4=1 — | r 0 .|; 然后从变量间的距离矩阵出发，调用 
CLUSTER 过程使用类平均法对变量进行聚类，输出 6. 7. 1给出其 
并类过程.从输出 6. 7.1 中可以看出： 8个变量若分为两类，则 

Gj 2) = {Xi = {X 5 ,X S ,X 7 ,Xg} ； 

若分为三类，则 

G{ 3 ) =G® ， G^={X 5 ,X 6 ,X 7 }, Gf ={X 8 }. 


输出 6. 7.1 变置系统聚类的并类过程 


Root-Mean-8 


Averaoe Linkage Cluster Analysis 
uare Distance Between Observations 


0.524448 



—Clusters Joined— 


x2 x3 


xl 

x4 

CL6 

CL7 

x5 

x6 

CL4 

x7 

CL3 

X0 

CL5 

CL2 


Froquancy 
of Nbv 
C lustor 

2 

2 

A 

2 

3 

4 
8 


Pseudo 

F 

22 

43 

22 

22 

16 

68 

17 

07 

14 

3G 

17 

15 


Pseudo 

t**2 


rsolized 
RH8 

(stance 


Tie 




0.226905 

0.266854 

2 

87 

0.345879 

0.453810 

2 

57 

0.669800 

2 

12 

0.600759 

17, 

15 

1.234171 
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二 、 VARCLUS (变童聚类)过程简介 

在 SAS/STAT 软件中所提供的 VARCLUS 过程是专门用于对 
变量进行分类的，它根据相关阵或协方差阵对变量进行分裂聚类或 
谱系聚类.类的选择原则根据主成分分析和因子分析的思想(参见第 
七章和第八章），使每一类的第一主成分或重心分量所解释的方差为 
最大. 

1. 变置聚类的步骤 

如果没有为过程提供初始分类的情况， VARCLUS 过程开始把 
所有变量看成一个类，然后它重复以下 步骤： 

步骤1:首先挑选一个将被分裂的类. 

步驟2:把选中的类分裂成两个类.首先计算前两个主成分，再 
进行斜交旋转，并把每个变量分配到旋转分量对应的类里，分配的原 
则是使变量与这个主成分的相关系数为最大. 

步骤3:变量重新 归类. 通过多次反复循环，变量被重新分配到 
这些类里，使得由这些类分量所解释的方差为最大.重新分配可能要 
求保持谱系结构. 

当每一类满足用户规定的准则时，过程停止以上分裂类的三个 
步骤. 该准则或是每个类分量所解释的方差的百分比，或是每一类的 
第二个特征根.如果没有规定准则，则当每个类只有一个特征根大于 
1时， VARCLUS 过程停止. 

例 6. 7. 2 对例 6. 7. 1中给出的8项体型指标的相关系数阵， 
试用 VARCLUS 过程进行分类. 

解 调用 VARCLUS 过程对8个体型变量进行分类.输出 
6.7.2 为给出分类个数由1至8类的分类结果的总结表.该表的每 
一行对应于一次分裂. 

从输出 6. 7. 2和输出 6. 7. 3的结果可看出，把8个体型指标变 
量分为两类比较合适.第一类包括 X ,(身高）、 X 2 ( 手臂长）、 X 3 ( 手肘 
长)和又 4 (小腿长），它们称为体型的高矮变 量类; 第二类包括 X 5 (体 
重）、 X 6 ( 颈围）、 X 7 ( 胸围）和 X 8 (胸宽），它们是体型的肥瘦变量类 • 








从输出 6. 7 . 3 的谱系聚类图中可以看出，若要求分为三类，则 
X 8 ( 胸宽)独立为一类•该结果与用重心类分量聚类分析所得到的结 
果是一致的. 


习题六 

6-1 试证明下列 结论： 

(1) 由两个距离的和所组成的函数仍为 距离； 

(2) 由一个正常数乘上一个距离所组成的函数仍为 距离； 

(3) 设 d 为一个距离， c >0 为常数，则 tT = rf / W + c ) 仍是一个 
距离； 

( 4 ) 由两个距离的乘积所组成的函数不一定是距离. 
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6-2 试证明二值变量的相关系数为 （6. 2. 2) 式，其夹角余弦为 
(6. 2. 3) 式. 

6-3 下面是5个样品两两间的距离矩阵 


「0 


4 0 

D ( 0) =690 
1 7 10 



试用最长距离法、类平均法作系统聚类，并画出谱系聚类图. 
6-4 利用距离平方的递推公式 


Dl = a p D\ k + a q D\ t + 吨 + 7\D\ p -Dl k \ 

来证 明：当 7=0, a ^ O , a g ^0, a p + a g +^ l 时，系统聚类中的类 
平均法、可变类平均法、可变法，以及 Ward 法的单调性. 

6-5 试从定义直接证明最长和最短距离法的单调性. 

6-6 设为平面上三个点 
(如图所示），它们之间的距离为 

<^AB ~ ^AC =1.1 ， d\c = 1.0. 

将该三个点看成三个二元样品，试用此 
例说明中间距离法和重心法不具有单 
调性. 

6-7 试推导重心法的距离递推公 
式 (6. 3. 2). 

6-8 试推导 Ward 法的距离递推公式 (6. 3. 3). 

6-9 设有5个样品，对每个样品考察一个指标，得数据为1，2, 
5,7,10. 试用离差平方和法求将5个样品分为々类 U = 5,4,3,2， l ) 
的分类法 6* 及其相应的总离差平方和 W ( k ). 

6-10 今有6个铅弹头，用“中子活化”方法测得7种微量元素 
的含量数据(见表 6.13). 

(1) 试用多种系统聚类法对6个弹头进行 分类; 并比较分类结 



果； 

(2) 试用多种方法对7种微量元素进行 分类. 
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表 6. 13微置元索含量数据 


\ ^元素 
样品 x 

Ag ( 银） 
(Xi) 

A1 ( 铝） 
(X 2 ) 

Cu ( 销） 
(X 3 ) 

Ca ( 钙） 
(X 4 ) 

Sb ( 锑） 

(x 5 ) 

Bi ( 铋） 
(X 6 ) 

Sn ( 锡） 
(X 7 ) 








61.69 








2440 








9497 


0.15010 






6380 


5. 74400 






12520 








4135 


6-11 设在某地区抽取了 14块岩石标本，其中7块含矿，7块 
不含矿.对每块岩石测定了 Cu , Ag,Bi 三种化学成分的含量，得到的 
数据见第五章表 5. 3. 试用几种系统聚类方法进行聚类分析，给出综 
合的分析结果，并与实际情况进行比较. 

6-12 某城市的环保监测站于1982年在全市均匀地布置了 16 
个监测点，每日三次定时抽取大气样品，测量大气中二氧化硫、氮氧 
化物和飘尘的含量.前后5天，每个取样点(监测点)对每种污染元素 
实测15次，取15次实测值的平均作为该取样点大气污染元素的含 
量(数据见第五章表 5. 5) .试用几种系统聚类方法进行聚类分析，并 
给出综合的分析结果. 



第七章主成分分析 

主成分分析是 将多指标化为少数几个综合指标的一种统计分析 
方法.在实际问题中，研究多指标的问题是经常遇到的问题.多元统 
计分析处理的是多变量(多指标)问题.由于变量个数太多，并且彼此 
之间存在着一定的相关性，因而使得所观测到的数据在一定程度上 
反映的信息有所重叠•而且当变量较多时，在高维空间中研究样本的 
分布规律比较复杂，势必增加分析问题的复杂性.人们自然希望用较 
少的综合变量来代替原来较多的 变量; 而这几个综合变量又能够尽 
可能多地反映原来变量的信息，并且彼此之间互不相关.利用这种降 
维的思想，产生了主成分分析、因子分析、典型相关分析、偏最小二乘 
回归等统计 方法. 本章介绍主成分分析方法.主成分分析又称 主分置 
分析或主轴分析. 


§7.1 总体的主成分 


_、主成分的定义 


设叉=(兄，…， X ,)'是/>维随机向量，均值 E ( X ) = //， 协方差阵 


D ( X ) =2. 考虑它的线性 变换： 

Zi — a l X — < 2 n X! + a 21 X 2 + …+ a pl X p , 
^Z 2 — a 2 X = a u X l + a 22 _X" 2 + … + a pi X p , 

Z p = a' p X = a 1/ ,X 1 + a 2p X 2 + … + a pp X p , 

易见 

Var ( Z ,) = a[la,, (i = 1，2,…， 户）， 
Cov ( Z , , Z 7 ) = a ' jZaj , (i , j = 1， …， 声）. 


(7. 1. 1) 


(7. 1. 2) 
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假如我们希望用厶来代替原来的/>个变量 X ,，…， X ,，这就要 
求& 尽可能多地反映原来个变量的信息，这里所说的“信息”用什 
么来表达呢？最经典的方法是用厶的方差来表达 . Vard ) 越大，表 
示包含的信息越多.由 （7.1. 2) 式看出，对必须有某种限制，否 
则可使 VarCZ !)^. 常用的限制是 ： fl ； ai = l . 若存在满足以上约束 
的 ai ，使 Var ^) 达最大 ， Z , 就称为第一主成分(或主分量).如果第 
一主成分不足以代表原来/>个变量的绝大部分信息，考虑 X 的第二 
个线性组合 Z 2 .为了有效地代表原始变量的信息 ，厶 已体现（反映） 
的信息不希 望在厶 中出现，用统计语言来讲，就是要求 

Cov ( Z 2 , Zi ) = = 0. (7.1. 3) 

于是求 Z 2 ，就是在约束 a' 2 a,= \ 和 （7. 1. 3) 式下，求 a 2 使¥訂(2 2 )达 
最大，所求之厶称为第二主成分，类似地可求得第三主成分，第四主 
成分等等. 

定义 7. 1 . 1 设 x =( x '， x 2 ，…， x t y 为 p 维随机向量.称 z ,= 
a、 X 为 X 的第 z ' 主成分 G = 1，2,…，/ >) ， 如果： 

(1) a - a , = l ( z ' = l ，2, …，户）； 

(2) 当 z'>l 时，(_/=1，…， 1); 

(3) Var ( Z ,)= max Var ( a ’ X ). 

a'a^l,a'Saj=0 (_ ； _= 1 ， … 1 ) 

从代数学观点看，主成分就是/»个原始变量的一些特殊的线性 
组合; 而从几何上看，这些线性组合正是把由 ；^ ，…，构成的坐标 
系经旋转而产生的新坐标系，新坐标轴使之通过样本变差最大的方 
向(或者说具有最大的样本方差). 

考虑/> = 2,此时原始变量为 X ,， X 2 .设(不，；!： 2 )服从二元正态 
分布，则样品点不0 = ( x in j :,+ 2 ) (/ = 1，2,… n ) 的散布图(见图 7.1) 
在一个椭圆内散布着. 

由上可知，对于二维正态随机向量，《个点散布在一个椭圆内 
(当原始变量 X ,, X 2 相关性越强，这个椭圆就越扁）.若取椭圆的长 
轴为坐标轴 A ，椭圆的短轴为 z 2 ，这相当于在平面上作一个坐标变 
换，即按逆时针方向旋转一个角度心根据旋转变换公式，新老坐标 




图 7.1 主成分的几何意义 

之间有 关系： 

jZi = cos^Xi + sind X 2 y 
\ z 2 =— sin 汐 + cos 0 X 2 . 
z t , z 2 是原始变量 x , 和 x 2 的特殊线性组合. 

从图上可以看出二维平面上《个点的波动(用两个变量的方差 
和表示)大部分可以归结为在 A 方向的波动，而在 z 2 方向上的波动 
很小，可以忽略•这样一来，二维问题即可以降为一维，只取第一个综 
合变量厶即可，而是椭圆的长轱. 

一般情况，/>个变量组成/>维空间，《个样品点就是维空间 
的 n 个点.对于/>维正态随机向量来说，找主成分的问题就 是找户 
维空间中椭球的主轴问题. 

二、主成分的求法 

设户 维随机向量 X 的均值 E ( X ) = 0, 协方差阵 D ( X )=2>0. 
由定义 7. 1. 1，求第一主成分厶=4叉的问题，即为求〜=( 011 ， 
a 21 ，…，％)'，使得在 a' iai = l 下， VaKA ) 达最大.这是条件极值问 
题，用拉格朗日乘子法求解.令 

fCaj) = Var(a[X) — X{a\a x — 1) = a[Sai — X{a\a x — 1) » 
考虑 
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= 2 (S — AI ) a l = 0, 

3© , 

0 ^ = < 2^1 — 1 = 0 . 


(7. 1.4) 


因4关0,故|2—/17|=0，求解方程组(7.1.4),其实就是求2的特征 
值和特征向量问题•设 A=A 是2的最大特征值，则相应的单位特征 
向量 A 即为所求.一般地，求X的第/主成分可通过求2的第 z •大 
特征值所对应的单位特征向量得到. 

定理 7. 1. 1设(兄，… ， X,V 是户维随机向量，且 D(X) = 
的特征值为 ai , a 2 ,''' , a p 为相应的单位正 
交特征向量，则X的第/主成分为 

Z, = a [ X 0. = 1，2,…， P). 

证明 因2为对称矩阵，利用附录中定理 7. 2的结论 （1) 可知， 
对任意非零向量 a， 有 




a 1 S a 


^ ^1 > 


且最大值在时达到.故在的约束条件下，使得 

VarCZi) = VarCajX) = a 1 Ea 1 = Aj 

达到极大值.根据主成分的定义 7. 1. 1， Zea'A 为 X 的第一主成 
分. 


对 r=2,3, …，/>，记^ f r =2(a r ，…，〜），利用附录中定理 7. 2的 
结论(2)，即得 


a^0,ae^ r CL a 

且最大值在 a=a r 时达到.故在 a r a r = l 的约束条件下，知满足 

a r^j — a' r Xjaj = = 0 O =- 1,—,r — 1 )； 

且使得 

Var(Z r ) = Var(a^X) = a ' r £ a r = A r 
达极 大值. 根据主成分的定义 7. 1. 1, Z r =^X 为X的第 /■ 主成分. 

(证毕) 

推论 设 Z=(Z〗，Z 2 ，…， Z,)' 为 声维随 机向量，则其分量 Z , 


§7.1 总体的主成分 269 

G = l，2, …汐)依次是X的第£主成分的充分必要条 件是： 

(1) Z = A ' X , A 为正交 矩阵； 

(2) DOdiagU，；^， …， A,)， 即随机向量 Z 的协方差阵为对 
角 矩阵； 

(3) 义1> 又》… 


三、主成分的性质 


记2= ( a 0 ) , JsdiagUpA ， … ，冬） ，其中夂为2 
的特征值， ai , a 2 ,-, a p 是相应的单位正交特征向量，记正交矩阵 A 
= (<2i，a 2 , … , a p ). 主成分 Z —{ Z X ,— ，Z A )' ，其中 Z ,= a'i (t_ = l，2，.“ ， 
P 、. 

总体主成分有如下 性质： 

性质 1 DOd, 即户个主成分的方 差为： Var(Z,)=Ai (z_ = 
1，2^“，/>)，且它们是互不相关的. 

性质 2 i >,,= ，通常称为 原总体 X 的总方差(或 

1=1 1=1 (=1 

称总惯置). 

此性质说明原总体X的总方差可分解为不相关的主成分的方 

差和，且存在；《 (m</>)， 使 f <r,, 〜 f]A_ ，即/>个原始变量所提供 

«=*1 1 = 1 

的总信息(总方差)的绝大部分只需用前 m 个主成分来代替. 

性质 3主成分 Z* 与原始变量X,的相关系数 p ( Z t ， X ,) 为 

p ( Z t , Xi ) — VlTa,*/ { k,i = 1,2, •••;&), (7.1.5) 

并把主成分 A 与原始变量X,的相关系数称为因子 负荷量 （或因子 

载荷置). 

证明 事实上，因为 


|0(Z*,X,) 


CovCZ^X.) 
Vvar ( Z *) • Var ( X ,) 


Co \(^ a' k X , e ' k X ) 
V A * . ff „ 


其中占;=(0，“，，0，1，0，“.，0)'，它是除第/个元素为 1 外其余元素均 
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为0的单位向量•再利用协方差的性质及 心是 I；对应于 A* 的特征向 
量可知 

Cov (< 2 t X ,e, X)— a' k D(X)ei = a *- Sc , = e, Sa k = A k e'^a t = 

即得 

p ( Z t , Xi ) = ( k,i = 1,2，.../>). (证毕） 

如果把主成分与原始变量的相关系数列成表 7. 1 的形式，则由 
相关系数的公式 (7. 1. 5)，还可得出下列性质4和 5. 


表 7.1 主成分和原始变量的相关系数 



Zi 

… Zk 

… Zp 

X, 

p(Z lf XO 

… piZk.XO 

… p(Z pf XO 

Xz 

p(ZuX 2 ) 

… 

… p{ZpyX 2 ) 

x P 

p(Zi,X P ) 

… p(Zk,X P ) 

… piZp.Xp) 


性质4 f ^ P 2 ( Z i , X ,)= f ^ ^ = 1 0 = 1,2,-,/.). 

*=1 a H 

证明 因为由4'24=^，可得2=4儿4'，故 


a i \ 

° a = ( a n ，…，: 

- a ip- 


— 么， 

*=i 


p p 

因此， X ) i ° 2(Zi ^ = S = 1 (1_=1，2,…， />、)• 事实上，主成 

i=l ik—1 


分厶 (々 = 1，" •，/ >) 是变量足，&，…， X, 的线性组合 ; 反过来，X, 
也可表成&，…， Z* 的线性组合•又因厶，…，互不相关，由回归分 
析的知识可知， 兄与 Zi ，…，乙的全相关系数的平方等于1，即表 


7. 1中每一行的平方和均为1，即得性质 4. (证毕) 

P 

性质 5 Yja iiP l { Z k , X ,)= X k (々 = 1，…， /»). 

1 = 1 


证明这只须把 MZ *， X ,) 的计算公式 (7. 1. 5) 代入性质5表达 
式左端，经整理 即得. 另一方面，因可表成不，…， X ,的线性组 
合，但足 G ’ = l ，》_， f ) 一般有相关性，由 Z * 与 X ,相关系数的公式 
(7.1. 5) ，也可得出表 7. 1中 Z * 所对应的每一列关于各变量相关系 
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数的加权平方和为 A * (即 Var ( Z *». (证毕） 

主成分分析的目的之一是为了简化数据结构，故在实际应用中 
一般绝不用/>个主成分，而选用 m ( m </>) 个主 成分. m 取多大，这 
是一个很实际的问题.为此，我们引进贡献率的概念. 

定义 7. 1. 2我们称; I */ 为主成分厶的贡 献率； 又称 

« = 1 

为主成分& ， Z m ( m </>) 的累计贡献率. 

通常取 m , 使累计贡献率达到70%以上，累计贡献率的大小仅 
表达个主成分提取了 Xi ，…, X ,的多少信息，但它没有表达某个 
变量被提取了多少信息，为此又引入另一个概念 • 

定义 7. 1. 3将前 m 个主成分 A ，…， Z „ 对原始变量兄的贡献 
率 v 广 定义为兄与厶 ，…， Z m 的相关系数的平方，它等于 


(7.1.6) 

例 7. 1. 1 设随机向量的协方差阵为 
" 1 - 20 ' 

■S = - 2 5 0 ， 

_ 0 0 2 - 

试求 X 的主成分及主成分对变量兄的贡献率 V , 0 = 1,2, 3). 

解 豆的特 征值为々= 3 + ^/¥， A 2 = 2, 4=3 — 相应单 
位正交特征向量为 



■ 0. 

383 ■ 


"0" 


"0. 

924" 

^1 = 

一 0. 

924 

» a 2 = 

0 

, a z = 

0. 

383 


- 0. 

000- 


-1 」 


-0. 

000- 


故主成分为 

Z! = 0. 383*X\ — 0. 924X 2 ， 

z 2 = x 3 (x 3 本身就是一个主成分，与兄，叉 2 不相关）， 


Z 3 = 0. 924Xi + 0. 383X 2 . 

取 m = l 时， Zi 对 X 的贡献率可达 


3 + -/8~ _ 

义1 +又2 +又3 


3 + VT 
8 


= 72.8%; 
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取 w = 2 时， Zi,Z 2 的累计贡献率可达 97. 85%. 下表列出 m 个主成 
分对变量 X, 的贡献率 



p(ZuXi) 

p(Z 29 Xi) 

1^”(771 = 1 ) 

pp 〉 （ m=2) 

1 

0. 925 

0 

0.856 

0. 856 

2 

-0. 998 

0 

0. 996 

0.996 

3 

0. 000 

1 

0. 000 

1. 000 


由上可见，当 m = l 时， Z , 的贡献率已达72.8%，比较理想了. 
但1 对的贡献率^^ = 0,这是因为在 Z , 中没有包含 X 3 的任何 
息，这时仅取 m = \ 就不够广，故取 wj = 2, 这时 Z ] , Z 2 的累计贡献 
率为97_85%，且2 1 ，厶对义,的贡献率 1 >, (2) (£=1,2, 3) 也较高. 


四、标准化变置的主成分及性质 


在实际问题中，不同的变量往往有不同的量纲，而通过2来求 
主成分总是优先考虑方差大的变量，有时会造成很不合理的结果，为 
了消除由于量纲的不同可能带来的一些不合理的影响，常采用将变 
量标准化的方法.若记 E ( X )=片 ， Var ( X , ) = < r , 2 ,即令 


Xj — E ( X t ) _ Xj — pLj 

Vvar ( Z ,) 〜 


0. = 1，2,…， />). 


这时标准化后的随机向量 ； r = ( X / )' 的协方差阵 

就是原随机向量 x 的相关阵 /?• 从相关阵出发求主成分，记主成 
分向量为 z * = ( zr ,…， z 纟）'，则 z * 有与总体主成分相应的性质： 
性质 1 ，…，<)，其中” 

> K 为相关阵尺的特征值. 

性质2 V =/>. 

»=1 

性质3 主成分 Z / 与标准化变量； C 的相关系数 / KZ :， X :、 为 

P ^ l ， X ,* ) = - sfxia' ik ( k,i = 1,2,•••/>), 

其中 < =«*， …， <*)' 是 i ? 对应于 A / 的单位正交特征向量. 

性质4 A;( a ,.;) 2 = l 0 = 1,2,-,/,). 

*=1 *=1 


性质 5 YjP 2 ( Z ^， X t * 、= 2^* ( a , i ) 2 = AT (^ = 1,2,•••,/>). 

i=l i=l 

现将主 成分乙 ： u = i ， …， />) 对标准化变量 xr 的因子负荷量 
p ik = p <, z ； , X ： ) 列成表 7. 2. 

表 7.2 变量标准化后的因子负荷量 



Z; • 

•• Zt • 

•• z ； 

S4 

*=1 

x ： 


•• V^7 a； k 

“ aip 

1 

x 2 # 

"s/ <221 • 

•• "n/ V a 2k 

” alp 

1 

X; 


-• -JTi a; 

•• ^/~K a； p 

1 

1=1 

Ai* • 

•• K 

•• K 

k=li=\ 


§ 7.2 样本的主成分 

上节讨论了总体的主成分，在实际问题中，一般协方差阵2未 
知，需要通过样本来估计.设 X w -{ x tl , — , x tp )' ( f = l ， …， 《) 为来自 
总体 X 的样本，记样本数据阵为 


X 


则样本协方差阵 S 及样本相关阵分别为 


• 工 11 

X \2 

… X \p 



土 21 

x n 

• • • "TT 

丄 2p 

= 


■ 工 ”1 

^nZ 

**" 工 np - 


乂)- 


def 


其中 


*5 = ^ 2 (叉⑴ 一 X)(X ⑴一幻 ' == ( Sij) pxp 

x = 丄乏]又⑴ = (王！，… y x p y , 

71 t=\ 

^ij ~ ^ — 1 > : (工 to . - 工|0 ( 工"—工>); 
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R = ^ r ii > pxp ^ 其中〜= 7^= = 1，2,…， 声）. 

w Sii S jj 

我们可以用样本协方差阵作为乏的估计或用尺作为总体相 
关阵的估计，然后按上节的方法即可获得样本的主成分. 


一、 样本主成分及其性质 


假定每个变量的观测数据都已标准化(标准化后的数据阵仍记 
为 X ，它为 《 X /> 矩阵).这时样本协方差阵就是样本相关阵尺，且 

R - X ' X . (7.2.1) 

n — \ 


仍记相关阵的/>个主成分为 A ，…，乙, 

为 R 的特征值，^ ，❼， …,％为相应的单位正交特征向量，记 A = 
( A ，七 ，…，^)为正交矩阵.显然第/个样本主成分 Z f = a：X a = i , 
2,…，声).将第 f 个样品 X(o = C ^ i ， …，^)'的值 代入乙 的表达式，经 
计算得到的值称为第£个样品在第〗个主成分的得分，记为〜(显然 
z H — a i X ( t ) 9 / = 1，…，户）•设 2 \o = ( z n 9 z t29 ^* 9 z tp ) f = A f X ( t) 0 = 1， 


…， n ) (见表 7. 3) •令 


Z = 



Z 12 

… Z ip 


~z' 

厶⑴ 

Z 21 

Z 22 

… Z 2p 

def 

Z(2) 

- z m 

之 ”2 

… 之 nf>- 




或 def 


(Uv’Z 户 ）. 


表 7. 3原始數据和样本主成分得分 


样品号 

x l 

原始变量 

x 2 … 

x P 


样本主成分 
Zz … 


1 

x \\ 

工12 … 

^■Ip 

之 11 

之12 … 

Z \P 

2 

工 21 

工22 … 

^2 p 

«21 

之22 … 

Z zp 

n 

工 ”1 

X *2 … 

工 np 

之 ”1 

ZnZ … 

怎 np 


显然，主成分得分阵 Z 和标准化后的原始数据阵 X 满足： 

Z = XA 或 X = ZA ', 

其中 A 为/>阶矩阵. 

类似总体主成分，样本主成分也具有如下 性质： 

性质 1 Z = ^^ JZ ( l ) : =( z 1 ,-" , z p y —0 (因为又= 0)，而 

z'z = ( 0, 当# )， 

' 1 l(w - 1) A ,, 当£ = _/. 

上式说明当时 ，第； 个主成分得分向量 Z , 与第 J ' 个主成分得分 
向量 Z , 是相互正交的. 

性质 2 .称 | 为样本主成分 Z * 的贡 献率； 又称 

+ A "■ 为样本主成分 Zl ，… ，乙 ( m </>) 的累计贡献率. 

性质3 样本主成分具有使残差平方和最小的优良性. 

设&，…，乙是样本主成分，即 

[ Z ! = a n Xi + a 2 】 X 2 + …+ a pl X p = a [ X , 


[A = a 1#> Xt + a 2/1 X 2 + …+ a 烀 ， 

它等价于维随机向量 Z 可表为 


z = 

zr 

= A f 

'xr 

= A f X = 

a iiXi + ••• + a p 'Xp 


人 




十… + a pp X p _ 


于是原/>维随机向量 X 也类似可表为 


X = 

"xr 

= A 

'zr 

=AZ = 

hiZi + ••_ + u^pZp 


又 


-Zp- 


_a pl Z l + ••• + a pp Z p _ 


即原始变量 X , 0=1，2,…， />) 也可以用主成分乙，…， •^的 线性组 
合表示. 

如果我们只取前 m 个主成分 ( m </>)， 并考虑用前；《个主成分 
厶，…， Z „ 的线性组合来表示 X , () = 1，2,…，/>)，即假定足 ，…， X * 
和厶，…， Z „ 满足以下多因变量的多元线性回归模型： 
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Xi = b n Zi + 厶 12 Z 2 + …+ b lm Z m + £i y 

< . (7.2.2) 

X p = b pl Z x + + … + b pm Z m + e p , 

把表 7. 3 给出的原始变量的观测数据和前 w 个主成分的得分数据 
作为以上模型中因变量和自变量&，…，的观测数据. 
因而使残差平方和最小的问题 化为： 按最小二乘准则求参数矩阵 

'*11 " 

B =: :， 

Al … b pm- 

使得残差平方和 Q ( B ) 达最小.记 



之 11 … Z lm 


工 u … x \p 

Z* = 

: : 

, x = 

• • 

• • 


- 之 《1 … Z nm- 


-工 ”1 … X np, 


则观测数据 满足： X = Z * B '+£ ，其中£为” X 户矩阵 • 

由多因变量的回归分析(参见第四章)的理论知：参数矩阵的最 
小二乘估计为 

b ' = KZ ' yz ' THZ ' yx . 

令 A • = ( a !， a 2 ，… ， a m ) (> A * 为 /> Xw 矩阵），则 

Z * = XA \ 

且因 （ A * )' RA * = diag ( A !, A 2 , — ，于是 

(Z"yz'= iA'yx'XA' = (” 一 i )( a*)w 

=(n — DdiagdA ”".， A „) ， 


故 

B'= -^diagGr 1 ;\ … ， C) • 

n ——丄 

=diag(AK ， … ， A: 1 )(iM*) , 

=diag(Aj~* ，入厂 1 ， … ， / C 1 )( 々 a! ， A 2 a 2 ， … ，七 〜）’ 

= (屮，〜，…， O ’ = 04*)’. 

这表明当 b jk = a jt (_/ = 1，2,…，/ >;々 = l ，."， w ) 时，可使回归模型 
(7. 2. 2) 的残差平方和达最小值，而且回归方程中 X ,的决定系数 
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圮 0) 有： (见本章习题第 7-8 题).前面我们把称为 
m 个主成分对原始变量 X ,的贡献率， v 广的大小反映了 w 个主成 
分能够反映；^变差的比例大小. 

二、主成分的个数及解释 

主成分分析的目的之一是简化数据结构，用尽可能少的主成分 
A ，…， Z „ ( m </0 代替原来的/>个变量，这样就把个变量的《次 
观测数据简化为 m 个主成分的得分数据.这 要求： 

(1) m 个主成分所反映的信息与原来 f 个变量提供的信息差不 
多； 

(2) m 个主成分又能够对数据所具有的意义进行解释. 

主成分的个数 m 如何选取是实际工作者关心的问题.关于主成 

分的个数如何确定，常用的标准有 两个： 一个是按累计贡献率达到 
一定程度（如70%或80%以上）来确定 m ; 另一个是先计算 S 或 i ? 
的户个特征值的均值 I ，取大于 X 的特征值个数 m . 当变量个数户< 
20时，大量实践表明，第一个标准容易取太多的主成分，而第二个标 
准容易取太少的主成分，故最好将两者结合起来使用，同时还要考虑 
m 个主成分对； f , 的贡献率 (*•= 1,2，…， />). 

例 7. 2.1( 中学生身体四项指标的主成分分析） 在某中学随机 
抽取某年级30名学生，测量其身高(兄）、体重 ( X 2 ) 、胸围 ( X 3 ) 和坐 
高 ( X 4 ), 数据见表 7. 4. 试对这30名中学生身体四项指标数据做主 
成分分析. 


表 7. 4 30名中学生身体四项指标数据 


■ 

■ 



ma 


D 




■ 




mtm 

■ 


mm 







■ 








■ 













■ 










Ml 




■ 








_ _ 




IE9 


K9I 


■■ 
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(续表) 


序号 

X x 

X 2 

x 3 

X 4 

序号 


x 2 

x 3 

X , 

15 

137 

31 

66 

73 

' 16 

152 

35 

73 

79 

17 

149 

47 

82 

79 

18 

145 

35 


77 

19 

160 

47 

74 

87 


156 

44 

78 

85 

21 

151 

42 

73 

82 

22 

147 

38 

73 

78 

23 

157 

39 

68 


24 

147 

30 

65 

75 

25 

157 

48 

80 

88 

26 

151 

36 

74 

80 

27 

144 

36 

68 

76 

28 

141 


67 

76 

29 

139 

32 

68 

73 


148 

38 


78 


解此例/> = 4 ，《 = 3 0.调用 SAS/STAT 软件中 PRINCOMP 
过程，由相关阵出发进行主成分分析. 

輪出 7.2.1 相关阵的特征值和特征向置 



Eigenvalues of the Correlation Hatrix 



Eigenvalue 

Difference 

Proportion 

Cumulat ive 

1 

3.54109800 

3.22771484 

0.8853 

0.8853 

2 

0.31338316 

0.23397420 

0.0783 

0.9636 

3 

0.07940895 

0.01329906 

0.0199 

0.9835 

4 

0.06610989 


0.0165 

1.0000 



Eigenvectors 




Zl 

z2 

z3 

z4 

Xl 

0.496966 

-.543213 

-.449627 

0.505747 

x2 

0.S14S71 

0.210246 

-.462330 

-.690844 

x3 

0.480901 

0.724621 

0.175177 

0.461488 

x4 

0.506928 

-.368294 

0.743908 

-.232343 


由输出 7. 2. 1中相关阵的特征值可以看出，第一主成分的贡献 
率已高达 88. 53%;且前两个主成分的累计贡献率已达96.36%.因 
此只需用两个主成分就能很好地概括这组数据.另由第四个特征值 
近似为0,可以得出这4个标准化后的身体指标变量 ； C 0 = 1,2,3, 
4 )有近似的线性关系（即所谓共线 性）： 

0. 5057 X ； - 0. 6908 X ； + 0. 4615 X 3 * - 0. 2323 X ； ^ 0. 
由最大的两个特征值对应的特征向量可以写出第一和第二主成 
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分： 

2^ = 0. 4970 X ； + 0. 5146 X 2 * + 0. 4809 X ； + 0. 506 9 X ； , 

Z 2 =- 0. 5432 X ； + 0. 2102 X ； + 0. 7246 X ； - 0. 3683 X ；. 
由上可知，第一和第二主成分都是标准化后变量又/0' = 1，2,3,4) 
的线性组合，且组合系数就是特征向量的分量. 

输出 7. 2. 2第二主成分得分对第一主成分得分的散布图 

Plot of z2*zl$nuBber. Symbol used is 1 . I 


1 

+ 

* 2 

29 

* 15 ** 10 

27 

• 17 

* 8 

* 9 

* 22 

« 1 

* 13 25 

* 28 

* 11 * 6 

* 24 

+ 

一 ^ - + - 

* 30 * 16 • 21 

* 4 

* 23 

»• - i - ♦ - 

* 12 
* 3 

* 19 

1 - +- 


—-+-+- -I - ♦ - +- 

-3-2-10 1 2 


2 , 


利用特征向量各分量的值可以对各个主成分进行解释.第一大 
特征值对应的第一个特征向量的各个分量值均在 0. 5附近，且都是 
正值，它反映中学生身材的魁梧 程度： 身体高大的学生，他的4个部 
位的尺寸都比 较大; 而身体矮小的学生，他的4个部位的尺寸都比较 
小，因此我们称第一主成分为大小因子.第二大特征值对应的特征向 
量中第一个分量(即身高的系数)和第四个分量(即坐高义 4 的系 
数）皆为负值，而第二个分量（即体重又 2 的系数)和第三个分量（即 
胸围 X 3 的系数）皆为正值，它反映中学生的胖瘦情况，故称第二主 
成分为体形因子(或胖瘦因子). 

输出 7. 2. 2是第二主成分得分对第一主成分得分的散布图，从 
图中可以直观地看出，按学生的身体指标尺寸，这30名学生大约应 
分成三组(以第一主成分得分值为 一1 和2为分界点）.每一组包括 
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哪几名学生由每个散点旁边的序号可以得知. 


§ 7.3 主成分分析的应用 


设变量兄，…，X,的 n 次观测数据阵X已标准化，这时样本协 
方差阵就是样本相关阵及，且 

R = ^ J x ' x — (〜)…. 

R 的特征值为其相应标准化特征向量为 ai , a 2 , 
…，样本主成分为 

Zj ~ ajX (_;■ = 1 ， 2 ,…， />). 

设 m 为满足累计贡献率 >P。 (一般取 1>F„>0. 70) 的最小正整 
数，取前讲个主成分，由样本观测数据可求得 m 个主成分的得 分值: 

z ij = = a b - x ;1 + a 2 ) x ,. 2 + …+ x— 

it = 1 , 2 ,•••,«；> = 1 , 2 , •■- ,m). 

记 Z ; += iz u , z 2j , —， z „ j )' 为第 j 个主成分的 w 次得分值(>=1 ，2，-. , 
m ). 利用样本主成分的性质3,下面可得出由主成分得分值估计变量 
X* 的得分. 

记 


其中 


可以 证明: 

故有 


X: = (x 二，工二， … ， j：:)’ {k = 1 ，…，/>)， 


工 , -1 = a tl z n + •■- + {i = 1 ， … ,n) , 

… x i P 


X. 


def 


(X ： 


2 2 (x "- x ,; ) 2 = (» - 1) 2 a. 

j=\ i—l k=m+\ 


(7. 3. 1) 


(7.3.2) 
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其中 


X 兰 X * ， 


且 



= Z * 


a*i 

- 0，km - 


<=1 


z * 


L^i … 


def 

=( Zj , —， z m ). 


一、 指标分类 (变置 分类） 

如 果第〗 个变量 和第） 个变量的相关系数 r ,,〜 l ，显然这两个变 
量应归为一类. 

仍用 X ,和 X ,表示这两个变量的《次观测向量 ，在” 维空间中 
即为两个点.考虑《维空间中这两点间的 距离： 

II X ,. _ X ) || 2 = ( X , - Xp ' ( X ,. — X ,) = X : X , — 2 X ： X ; + X ； X , 

=(n — 1)0“ 一 + r 力 ）= 2(n — 1)(1 — r,)). 

2(i - 

=I 1 - a Jl ) Z l + ― + ( a im — a M ) Z „]| 

= 又 1 + ••• + — a—) • 

因第々 个主成分厶与兄的相关系数 

,— def 

p(Z k9 Xi) = v ha ik ^=— p ik y 
~ 也称为第々个主成分在 X « 上的因子负荷量•这时 

2(1 — r f； ) = (p n — P n ) 2 + •- + (p im — P } m 、 Z ， 

若~〜1，则有 

(Pn -〜 ) 2 +…+ (〜 一 〜 ) 2 义 0 ， 
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亦即 || X.-X, || 〜 0, 即第 * • 个变量和第 j 个变量应归为一类 • 

考察 w 维空间的/>个点 Q ,， 其坐标为 

Qi = (Pil ， Pi” … ， Pirn) (i = 1 ， 2 ,…， />)， 

按距离最近准则对/>个点进行分类. 

当 m = 2 时，/>个点可在平面上表示出来，利用散布图可直观地 
对指标进行分类. 

例 7 .3. 1 服装定型分类问题.对128个成年男子的身材进行 
测量，每人各测得 16 项 指标： 身高 ( XO 、 坐高 ( X 2 )、 胸围 ( X 3 )、 头高 
( X 4 )、 裤长(不）、下档 ( X 6 )、 手长 ( X 7 ) 、领围 （ X 8 )、 前胸 （ X 9 )、 后背 
( U 、肩厚 ( x „)、 肩宽 ( x 12 ) 、袖长 ( x 13 )、 肋围 ( x 14 ) 、腰围 ( x 15 ) 和腿 
肚 ( X 16 ). I 6 项指标的相关阵尺见表 7. 5( 因相关阵为对称矩阵，只给 
出相关阵的上三角部分).试从相关阵出发进行主成分分析，并对 
16 项指标进行 分类. （此例选自参考文献 [10].) 


表 7. 5 16项身体指标数据的相关阵 



解此例声=16，《 = 128•使用 SAS/STAT 软件中 PRINCOMP 


过程，由相关阵出发进行主成分分析，所得主要的计算结果见输出 

7.3.1. 


输出 7. 3 .1 给出当取;《 = 3 时，相关阵及的最大特征值为 
义1 = 7. 0365 j A 2 = 2. 6140， A 3 = 1. 6321; 
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由与此3个特征值对应的特征向量 ai ， a 2 ， a 3 (见输出 7 . 3 . 1第2个 
表的表头为 Prinl ， Prin 2， Prin 3 所对应的列)可以计算因子负荷向量 
f . = JT, ai ( i ' = l ，2,3) .输出 7. 3. 2给出前两个因子负荷向量在平 
面上16个点的位置. 

输出 7.3.1 相关阵的特征值和特征向量 

Eigenvalues of the Correlation Hatrix 

Eigenvalue Difference Proportion Cumulative 

7.03647744 4.42244473 0.4398 0.4398 

2.61403272 0.98192786 0.1634 0.6032 

1.63210486 0.1020 0.7052 

Eigenvectors 



Prinl 

Prin2 

Prin3 

xl 

0.341771 

-.200400 

0.005720 

x2 

0.264992 

-.143202 

-.056565 

x3 

0.234152 

0.328625 

0.139937 

x4 

0.344233 

-.181124 

0.032229 

x5 

0.326118 

-.199650 

0.032945 

x6 

0.285914 

-.269807 

-.029540 

x7 

0.295261 

-.192150 

0.019608 

x8 

0.189273 

0.370267 

-.150284 

x9 

0.084793 

-.067472 

0.625563 

X10 

0.154295 

0.174246 

-.527507 

xll 

0.098355 

0.347850 

-.202115 

xl2 

0.242546 

0.017665 

-.314796 

xl3 

0.317158 

-.111914 

-.018841 

xl4 

0.180113 

0.371353 

0.252416 

xl5 

0.266359 

0.271225 

0.135^49 

X16 

0.158333 

0.362824 

0.243441 


从输出 7. 3. 2 可以看出， 16 个指标可分为三类： 

第一类为“长，’的指标：身长（兄），坐高 ( X 2 )， 头高 ( X 4 )， 裤长 
( X s ) ，下裆 ( X 6 ) ，手长 ( X 7 )， 袖长(兄山 

第二类为“围”的 指标： 胸围 ( x 3 ), 领围 （ x 8 ), 肩厚 ( x „)， 肋围 
( X 14 ), 腰围 ( x 15 ), 腿肚 ( x 16 ); 

第三类为体形特征 指标： 前胸 ( X 9 ) ，后背 ( X 1 D ), 肩宽 ( x 12 ). 
在第六章聚类分析中介绍的 VARCLUS 过程也是利用主成分 
分析的原理对指标进行 分类. 


2 

3 
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輪出 7. 3. 2第二因子负荷向量对第一因子负荷向置的散布图 



二、样品分类 


对夕个变量(指标)观测 n 次，得 n 个样品，记，: c ,. 2 ，…， 
x , t y 为第 i 个样品，看成维空间的点，可按距离相近的程度进行分 
类(参见第六章），即若 

II X <0 - X 0) | 卜 0 ， 

把第/ 个样品和第_；个样品归为一类. 

因原始数据阵 X T ， 故 



— X(j 、 


由 （7. 3. 1) 及 （7. 3. 2) 式知 




因 
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|| X*, - X*, II 2 = II 〜(〜 — 〜）+ 〜+ 

= ( z rt — 〜) 2 + …+ ( z im — Z -) 2 . 

这样就把考察两个/>维空间点的靠近程度转化为考察两个 m ( m < 
/>) 维空间点的靠近程度.若取 m = 2 ,n 个样品点可在平面上表示出， 
利用点的分布规律对样品进行分类. 

例 7. 3. 2服装定型分类问题(续例 7. 3. 1). 仍然利用128人 
16项指标的观测数据，试对128人的服装尺寸进行分类（即样品分 
类问 题：把 128人分为几类，每类找出典型代表，以该代表的服装尺 
寸作为这一类的尺寸). 

解 取 m = 2, 求出两个主成分，并计算样本主成分得分值 Z (i) 
= ( z n , z i2 )' (t = l ,2, … ，128) .把这128个点全部表示在平面上，利 
用平面散布图（图见参考文献 [10]) ,把128个点分为 七类： 

第一类共有25个点，聚集中心是 Z ( 25 ); 

第二类有14个点，聚集中心是 Z (1 i 4 )f 
第三类有9个点，聚集中心是 Z (89) f 
第四类有7个点，聚集中心是 Zam ； 

第五类有12个点，聚集中心是 Z 
第六类有20个点，聚集中心是厶 <7 ) ; 

第七类有8个点，聚集中心是 Z „ 18) . 

这七个类的典型代表分别是第25号,114号，89号，112号，9号，47 
号和118号样品，以它们的服装尺寸作为一个型号的标准尺寸.如型 
号 1( 第一类)的标准尺寸就是第25号样品的尺寸等等.各种型号服 
装的生产数量也按25 : 14 : 9 : 7 : 12 : 20 : 8这样的比例来生产 • 
注意： 这七类并没有把128个点全部包括在内，还有33个样品 
不能归入这七个类，可认为它们是一些特殊体形的样品. 

三、样品排序或系统评估 

对/>元总体 X 的样本进行主成分分析往往不是最终的目的，而 
常常是完成某个实际问题的一种手段.如例 7. 2. 1中由第一主成分 
得分对30名中学生的身体魁梧程度进行 排序. 
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在实际工作中常会遇到多指标系统的排序评估问题，比如对某 
类企业的经济效益进行评估比较,影响企业经济效益的指标有很多， 
如何更科学、更客观地将一个多指标问题综合为单个指数的形式.主 
成分分析方法为样品排序或多指标系统评估提供可行的方法. 

对多指标系统进行排序评估的主要方法是加权评估法，比如专 
家评估方法、综合评分法、层次分析法等.随着多元统计方法的普及 
与应用，主成分分析方法也成为构造系统排序评估指数的常用方法 
之一. 

设乙是标准化随机向量义=(；^，…， X ,)'的第一主成分.由主 
成分的性质可知，厶与原始标准化变量的综合相关 
程度最强， gp 

= A , 达最大， 

* = 1 

其中 A 为 X 的相关阵 i ? 的最大特 征值. 如果只选一个综合变量来 
代表原来所有的原始变量，最佳的选择就是 

另一方面，由于第一主成分 A 对应于数据变异最大的方向，这 
说明乙是使数据信息损失最小、精度最高的一维综合变量，因此它 
可用于构造系统排序评估指数. 

几点 说明： 

(1) 第一主成分 Zi 并不是总能够被用来作为排序评估指数.如 
果 

— a u^\ + a 21 X 2 + …+ a pl X p 

中的系数 a , : G = l ， …， />) 既有正又有负或近似为零， 说明厶 与原始 
变量…， X ,中有一部分为正相关，而另一部分为负相关或不 
相关，这时 A 有可能是无序指数，不能用乙作为排序评估指数. 

(2) —般情况下， Z 2 ， Z 3 ，…， Z , 不适合用来构造排序评估指数 • 
因 Z * ( A ==2, …， p ) —般与原始变量中有一部分为正 
相关，而另一部分为负相关或不相关 • 或者说 Z 2 ， Z 3 , …，乙一般是无 
序指数. 

(3) 传统的专家评估和第一主成分评估法的结合•把传统的专 
家调查研究的信息用来对主成分评估法进行修正•具体作法可按以 


下步骤来 进行： 

① 把原始数据阵标准化后仍记为 X ,标准化的随机向量仍记为 
x=(Xi ， … ， x p y • 

② 把专家调查研究后得到的信息对变量的重要程度分别赋予 
不同的权重•设&为第 ） 个变 量的” 次观测向量，令 

X ； = (1 + a.OX, = OcW〆"〆:))’ (a>> 0,7 = 1，…， />)• 

③ 由标准化且重新加权后的数据阵 X * 出发来计算样本协方差 
阵 2* ， 并求 2* 的最大特征值 A 和相应的特征向量 /• 

④ 令(其中 z 为户维向量），然后按 
• yia ，."，％ 的大小排序后进行评估 • 

四、主成分回归 

在考虑因变量 y 与户个自变量 X :，…， a 的回归模型中，当自 
变量间有较强的线性相关（多重共线性)时，利用经典的回归方法求 
回归系数的最小二乘估计 ，一 般效果 较差. 利用户个变量的主成分 
，…， Z , 所具有的性质，如它们是互不相关的， Var ( Z ,) = A ，为第 f 
大特征值等，可由前 w 个主成分 A ，…， 乙 来建立主成分回归 模型： 
Y — b 0 々 A + …+ b m Z m (m ^ />). 

由原始变量的观测数据计算前 m 个主成分的得分值，将其作为主成 
分 / i ，…，2„的观测值，建立 y 与厶 ，…， Zm 的回归模型即得主成分 
回归方程.这时就把/>元数据降为讲元.这样既简化了回归方程的 
结构，且消除了变量间相关性带来的影响;但另一方面，主成分回归 
也给回归模型的解释带来一定的复杂性，因为主成分是原始变量的 
线性组合，不是直接观测的变量，其含义有时不明确•在求得主成分 
回归方程后，经常又使用逆变换将其变为原始变量的回归方程- 
当原始变量间有较强的多重共线性，其主成分又有特殊的含义 
时，往往采用主成分回归，其效果比较好•下面通过具体例子来说明 
主成分回归方法. 
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例 7. 3. 3经济分析数据的主成分回归.考察进口总额 y 与三 
个自 变量： 国内总产值 A ，存储量^，总消费量 x 3 ( 单位均为10亿 
法郎）之间的 关系. 现收集了 1949至1959年共11年的数据.对表 
7.6 的数据试用主成分回归分析方法求进口总额与总产值、存储量 
和总消费量的定量关系式. 


表 7. 6经济分析数据 


序号 

工 1 

工 2 

工 3 

Y 

1 

149.3 

4.2 

108.1 

15.9 

2 

161.2 

4.1 

114.8 

16.4 

3 

171.5 

3.1 

123.2 

19.0 

4 

175.5 

3.1 

126. 9 

19. 1 

5 

180. 8 

1.1 

132. 1 

18.8 

6 

190.7 

2.2 

137.7 

20.4 

7 


2.1 

146.0 

22.7 

8 

212.4 

5.6 

154. 1 

26.5 

9 

226. 1 

5.0 

162.3 

28.1 


231.9 

5.1 

164. 3 

27.6 

11 

239.0 

0.7 

167. 6 

26.3 


解首先把各变量的观测数据标准化,再调用 SAS / STAT 软 
件中 PRINCOMP 过程对3个自变量做主成分 分析; 然后用主成分 
得分数据进行主成分回归. 

由输出结果可知，相关阵的三个特征值分别为 

义1 = 1. 999, A 2 = 0. 998» A 3 = 0. 003 ； 

前两个主成分的累计贡献率在99% 以上. 取两个主成分(用 a :,• 表示 
■ r , 的标准化变 量）： 

Z l = 0. 7063 x ； + 0. 0435< + 0. 7065工 3 *， 

之 2 = — 0. 0357 x ； + 0. 9990 x ； - 0. 0258 x ；. 

由主成分回归得到的标准化回归方程为 ( T •表示 y 的标准化变 

量)： 

Y ' = 0. 68998 Z , + 0.1913 Z z 

= 0. 4804 x ； + 0. 221 lx ； + 0. 482, 
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用原始变量可将 f 的回归式表示为 

y = - 9. 130 + 0. 0727 X ! + 0. 6091 x 2 + 0. 1062而. 


(7. 3. 3) 

在 SAS 系统 6. 11以上的版本中，我们还可以使用 REG 过程的 
选项由原始数据来完成主成分回归.输出 7. 3. 3给出删去第三个主 
成分(取选项 PCOMIT = l ) 后的主成分回归方程（同 （7. 3 . 3 )式，见 
输出 7.3.3 中 Obs 为2的那一行)•这个主成分回归方程中回归系 
数的符号都是有意义的；主成分回归方程的均方根误差 （- RMSE - 
= 0. 55)，虽比普通回归方程的均方根误差 （- RMSE — = 0. 48887) 有 
所增大，但增加并不多. 


输出 7.3. 3经济分析数据主成分回归的结果 


Cbs _10DEL_ 



Intercept 


k2 k 1 * ^ 





1 MODEL 1 

2 R0DEL1 



-10.1280 - 

D. 051396 

0.58695 0.28685 -1 

IPC 

3 1 I 0.550D1 

-9.1301 

D.0727B0 

0.60922 0.10626 -1 

3 MODEL1 

IPC 

y . 2 1.05206 

-7.7456 

D. 073814 

0.08269 0.10735-1 


五、 主成分检验法 

设 

x i0 = { x n ，―, x ip y (? = 1 ，… ，”） 

为来自元总体 x 的样本，要检验总体 x 是否为元正态总体，这 
是第三章 §3. 6 中讨论的问题 • 

设 D ( X ) = 2, 如果是对角矩阵，即户维向量的分量间不相 
关，这时把/>元正态性检验问题可转化为/>个一元正态性检验问 
题.但一般2不是对角矩阵，即分量间是相关的.利用主成分分析方 
法，求得 ■ X ■的户 个主成分 Zi ，…， Z〆 不相关），并由原样本值计算声 
个主成分的得分值，作为个不相关的综合变量的样本值.这时就 
把户元正态性检验问题化为/>个一元综合变量（主成分）的正态性 
检验.这就是多元正态性检验的主成分检 验法. 实际检验时，利用主 
成分的性质，只须对前 m ( m </») 个主成分得分数据逐个做正态性 
检验. 
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习题七 

7-1 设'的协方差阵2= 


'1 4 

.4 100」 

^和相关阵/?出发求出总体主成分，并加以比较. 


，试从协方差阵 

，其中 


P 




7-2 设 X =( U 2 )' 〜沁 （0,2)，协方差阵2 

户为；^和 X 2 的相关系数(〆>()). 

(1) 试从2出发求X的两个总体主成分； 

(2) 求X的等概密度椭圆的主轴方向； 

(3) 试问当取多大时才能使第一主成分的贡献率达95%以 
上. 

7-3 设/>元总体 X的协方差阵为 

.1 p ― p 
p 1 ••• p 


2 = a 1 , 

-p p ••• 1 -1 

(1) 试证明总体的第一主成分 A 


(0</O< 1). 


(X 1 +X 2 + -+；^); 




(2) 试求第一主成分的贡献率. 

7-4 设总体叉=(不，…，;^)'〜(2>0)，等概率密度 
椭球为 

(X - ^ = C 2 (C 为常数). 

试问椭球的主轴方向是什么？ 

7-5 设三元总体 X的协方差阵为2= 

成分. 

7-6 设三元总体 X的协方差阵为 


「4 0 01 


0 4 

0 

，试求总体主 

■0 0 

2_ 



_<7 2 

一 

0 ' 


pa 1 

(T 2 

一 

，试求 

- 0 


C 7 2 - 
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总体主成分，并计算每个主成分解释的方差比例 （IH <1/^2")- 
7-7 设4维随机向量 X 的协方差阵是 

' O 1 °\1 ^13 a U 

a 12 o 2 ff i 3 

^ = 2 * 

^13 C \\ ° 

-^14 ^13 ^12 戊 2 - 

其中 9 < T 2 + cr 14 >( T 12 + < y 13 •试求 X 的主成分’ 

7-8 已 知总体，…，的 rz 次观测数据阵为 X = 
( Xij ) nX p ； Zi — a'iX G = l ， …，讲;桃 </>) 是 X 的前 m 个样本主成分 • 
设变量 X ,与 Zi ，…，的回归模型为 

def 

X,=〜 Zi + …+ b jm Z m + ej — b^Z + £ ; 0_ = 1，…， />). 

(1) 试求参数的最小二乘估计 I ( j = l ，2 r "，/>); 

(2) 求足回归方程的回归平方和％、残差平方和 Q ,， 以及决定 

系数杧0 = 1,2, -,/>). 

7-9 设 X =( X ” …， XJ 〜叫以）， 2有一个/>重特征值々 
(即2=\乙）， 

(1) 在观测值，...，〜)'（《=1，…，”)的基础上，证明 
A t 的最大似然估计是 


其中 5, = ^2 x °' 5 

(2) 证明 1 X 的主成分由 S'X 给出，其中5是任何户阶正交矩 
阵. 

7-10 若随机向量 XsQ ：, ，…， X〆 的协方差阵是非负定矩阵 
2,随机向量卩=0^ ，…， W 的协方差阵是则 Z/X 是 X 的 
主成分的充要条件是，是7的主成分，其中 L 是正交 矩阵. 

7-11 用主成分分析方法探讨城市工业主体结构.表 7 . 7 是某 
市工业部门13个行业8项指标的数据- 
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表 7. 7某市工业部门13个行业8项指标的数据 


園 

年末固定 
资产净值 
Xi 

(万元） 

职工人数 
X2 

(人） 

工业总产值 
X3 

(万元） 



IS 1 


能深利用 
效果 

X8 

(万元/崦） 

1( 冶金） 

90342 

52455 

101091 

19272 

82. 000 

16. 100 

197435 

0.172 

2( 电力） 

4903 

1973 

2035 

10313 

34. 200 

7. 100 

592077 

0. 003 

3( 煤炭） 

6735 

21139 

3767 

1780 

36. 100 

8. 200 

726396 

0. 003 

4( 化学) 

49454 

36241 

81557 

22504 

98. 100 

25. 900 

348226 

0. 985 

5( 机械） 

139190 

203505 

215898 

10609 

93. 200 

12. 600 

139572 

0. 628 

6( 建材) 

12215 

16219 

10351 

6382 

62. 500 

8. 700 

145818 

0. 066 

7( 森工） 

2372 

6572 

8103 

12329 

184. 400 

22. 200 

20921 

0.152 

8( 食品） 

11062 

23078 

54935 

23804 

370. 400 

41. 000 

65486 

0.263 

9( 纺织） 

17111 

23907 

52108 

21796 

221. 500 

21, 500 

63806 

0.276 

10( 缝纫） 

1206 

3930 

6126 

15586 

330. 400 

29. 500 

1840 

0. 437 

11( 皮革） 

2150 

5704 

6200 

10870 

184. 200 

12. 000 

8913 

0.274 

12( 造纸） 

5251 

6155 

10383 

16875 

146. 400 

27. 500 

78796 

0.151 

13( 文教艺 
术用品） 

14341 

13203 

19396 

14691 

94. 600 

17. 800 

6354 

1.574 


(1) 试用主成分分析方法确定8项指标的样本主成分(综合变 
量）； 若要求损失信息不超过15%，应取几个主成分;并对这几个主 
成分进行 解释； 

(2) 利用主成分得分对13个行业进行排序和分类. 

7-12 试对第六章表 6. 7中16个地区农民生活水平的调査数 
据进行主成分分析，并利用前两个主成分对16个地区的农民生活水 
平进行分类(请与第六章的分类计算结果进行比较). 


」 


第八章因子分析 


§ 8. 1弓 | 言 

因子分析是主成分分析的推广和发展，它也是多元统计分析中 
降维的一种方法.因子分析是研究相关阵或协方差阵的内部依赖关 
系，它将多个变量综合为少数几个因子，以再现原始变量与因子之间 
的相关关系. 

因子分析的形成和早期发展，一般认为是从 Charles Spearman 
在1904年发表的文章开始.他提出这种方法用来解决智力测验得分 
的统计 分析. 目前因子分析在心理学、社会学、经济学等学科都取得 
成功的应用. 

下面我们列举几个实际问题以说明如何应用因子分析来构造因 
子模型. 

实例1 为了了解学生的学习能力，观测了《个学生个科目 
的成绩(分数），用兄 ，…， X ,表示/>个科目（例如代数、几何、语文、 

英语、政治， . )， = — ( f = l ， … n ) 表示第 f 个学生 

的/>个科目的成绩.我们对这些资料进行归纳分析，可以看出各个 
科目（即变量）由两部分 组成： 

Xi = a { F + e , ( 1 — = 1""，/>)， （8.1.1) 

其中^'是对所有 X,(i = l ， …，/ >) 都起作用的公共因子，它表示智能 
高低的因子;系数 a , 称为因子载荷，表示第:'个科目在智能高低因子 
上的 体现; e , 是科目（变量) X ,特有的特殊因子.这就是一个最简单 
的因子模型. 

进一步地可把这个简单因子模型推广到多个因子的情况，即全 
部科目 X 所共有的因子有 m 个，如数学推导因子、记忆因子、计算因 
子等，分别记为 ，… ，心 ， BP 
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+ a ^ F 2 + …+ a im F m + e- 0 = 1,. 


，户） • 


( 8 . 1 . 2 ) 

用这 m 个不可观测的互不相关的公共因子心，… ，F„ (也称为潜因 
子）和一个特殊因子 6 :来 描述原始可测的相关变量 （科目 ）Xi ，…， 
^■”并释分析学生的学习 能力. 它们的系豸％，...，‘称为因子载 
荷，表示第 *• 个科 目在； w 个方面的表现.这就是一个因子分析模型. 

实例 2调査青年对婚姻家庭的态度，抽取„个青年回答了 
/> = 50个问题的答卷，这些问题可归纳为如下几个 方面. 对相貌的 
重视、对孩子的观点、对老人的态度等，这也是一个因子分析的模型， 
每一个方面就是一个因子. 

、实例 3考察人体的五项生理 指标： 收缩压(X,)、舒张压 (x 2 )、 
心跳间隔 CX" 3 )、 呼吸间隔 (x 4 ) 和舌下温度(义 5 ).从生理学的知识可 
知，这五项指标是受植物神经支配的，植物神经又分为交感神经和副 
交感神经，因此这五项指标至少受到两个公共因子的影响，也可用因 
子分析的模型去处理它. 

通过以上几个实例，我们可以看到，因子分析的主要应用有两方 
面 ，一是寻求基本结构，简化观测系统，将具有错综复杂关系的对象 
(变量或样品)综合为少数几个因子(不可观测的随机变量），以再现 
因子与原始变量之间的内在联系；二是用于分类，对个变量或„ 
个样品进行分类. 

因子分析根据研究对象的不同可以分为 R 型和 Q 型因子分析 
R 型因子分贿究变量(娜)之_相关絲，通过对錢的相关 
阵或协方差阵内部结构的研究，找出控制所有变量的几个公共因子 
(或称主因子、潜因子），用以对变量或样品进行分类 • Q 型因子分析 
研究样品之间的相关关系，通过对样品的相似矩阵内部结构的研究 
找出控制所有样品的几个主要因素 （或 称主因 子). 这两种因子分析 
的处理方法一样，只是出发点不同. R 型从变量的相关阵出发， Q 
型从样品的相似矩阵 出发. 对一批观测数据，可以根据实际问题的需 
要来决定采用哪一种类型的因子分析.本章主要介绍 R 型因子分析 • 

因子分析与主成分分析有区别.主成分分析不能作为一个模型 
来描述，它只是通常的变量变换，而因子分析需要构造因子 模型; 主 



成分分析巾主成颁个_变量傾》侧，它是将―组具有相关 
关系的变量顿为 -组互 不嫉触量(賊应駐成分分析 
实际问题时，-般只选贿讲 （w</)) 个主 成分） ，而因子分析的目 
的是要用何齡的公 H 子，以㈣造—个结鋪单酬子 模型主 
成分分析》主成分表示篇始翅__合 ，酬 子分析是将 
原始变量表示为公因子和特殊因子的线性组合，用假设的公因子 
解释 相关阵的内部依赖关系.另一方面这两种分析方法之间在某 
些情况下也有一定联系，读者将从下面的介绍中 看到. ' 


§ 8. 2 因子模型 

一、正交因子模型 

设尤=(尤，是可观测的随机向量， EOO=/t ， D(X) = 
I 且设尸=(&，…，匕），（所</>)是不可观测的随机向量， ECF) = 
0’ D ( F )= i „ (即尸的各分量方差为1，且互不 相关) •又设 e==(£i 
…与 F 互不相关，且 ' '' 

E ( e ) = 0, D ( e ) = diag(of ，•••，<)(对角矩阵). 

假定随机向量 X 满足以下的模型： . 

h = + a , 2 F 2 + …+ a lm F m + £l , 

< X 2 - " 2 = a 2 l F x + a 22 F 2 + ... + a 2 m F m + e 2 , 

.( 8 . 2 . 1 ) 

^ = + 〜 2 F 2 + … + apm F m + £p , 

则称模型 (8. 2. 1) 为正交因子樓型.用矩阵表示为 

^ = " + + （8.2.2) 
其中 F =( F , ，…，心)’，尸!，...，匕称为 X 的公共 因子； e =( £l ,..., 

e*)' ， q ，…，称为X的特殊 因子; 公共因子巧，…，一般对 x 的 
每一个分量X,都有作用，而 e , 只对足起作用，而且各特殊因子之间 
以及特殊因子与所有公共因子之间都是互不相关的. 

模型中的矩阵是待估的系数矩阵，称为因子载荷 
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矩阵. 化 《= i ， …， …⑽）称 为第； 个变量在第 i •个因子上 
的载荷(简称为因子载荷). 

正交因子模型 (8. 2.1) 中用 m + p 个不可观测的随机变量心， 
…， F „， W , 来表示/>个原始变量 不 ，…, X ,，这是 R 型正交因 
子模型与回归模型的区别所在.试图用回归方法确定因子载荷矩阵 
■ A 是不可行的.上述 (8. 2. 1) 的模型中对 F 和 e 作了一系列的假定， 
使得模型具有特定的且能验证的协方差结构.在以上一系列假定中 
有两个关键性的假设： d{ 

(1) 特殊因子互不相关，且 D(e)=di a g(4, …， 

(2) 特殊因子同公共因子互不相关，即 COVie , F )= O pXm . 

在主成分分析中，回归模型 （7. 2. 2) 中的残差通常是彼此相关 
的.在因子分析中，特殊因子起着残差的作用，但被定义为彼此不相 
关且与公共因子也不相关;而且每个公共因子假定至少对两个变量 

有贡献，否则它将是一个特殊因子 • 

在正交因子模型中，假定公共因子彼此不相关且具有单位方差， 

即 D ( F ) = I m . 在这种情况下，由 
■2= D ( X ) = E[(X — — ")'] 

= E[(AF + e){AF + e ) f ] = AD ( F ) A ' + D ( e ) = AA ' + D , 

即由 

2 — D = AA ' (8. 2. 3) 

可知，正交因子模型意味着第个变量和第々个变量的协 方差％ 由 
下式给出 

a *l + a *2 + …+ a vn a km O' ^ » 

a" = 4 + … + a%, + ff j (■/•== 是 ) • 

如果原始变量已被标准化为单位方差，在 ( 8 . 2 . 3) 式中将用相关 
阵代替协方差阵.在此意义上，公共因子解释了观测变量间的相关 
性.用正交因子模型预测的相关与实际的相关之间的差异就是剩余 
相关.评估正交因子模型拟合优度的好方法就是考察剩余相关的大 

小- , 

因子分析的目的首先是由样本协方差阵 i: 估计2,然后由分解 
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式 (8. 2. 3) 求得 A 和 D . 也就是从可以观测的变量 Xi ，…， X ,给出的 
样本资料中,求出载荷矩阵乂，然后预测公共因子 Fr ，-, F m . 又因 
COV ( X , F )= E(X — E ( X))(F - E ( F)Y = E[(X — 〆 ) 尸] 

= E[(AF + e ) F ] = AECFF 1 ) + E ( eF ') 

= A , (8. 2. 4) 

其中 A 为 pXm 矩阵.可见 4 中元素％刻画变量兄与巧之间的相 
关性，称为 X ,在&上的因子载荷. 

关系式 (8. 2. 3) 和 (8. 2. 4) 称为正交因子模型的协方差结构. 


二、正交因子模型中各个置的统计意义 


1. 因子载荷的统计意义 

由因子模型 (8. 2.1) 及 (8. 2. 4) 可知， X ,与巧的协方差 
Cov = a t j . 

如果 变量兄 是标准化变量(即 E ( X ,) = 0, Var ( X ) = l )， 则 


P-j 


Cov(X,,F,) 


Vvar(X,) VvarCF,) 


Cov(X,. ， F)) 


* ij * 


这时因子载荷 化 就是第 i 个变量与第 j 个公共因子的相关系数.由 
模型 (8. 2. 1)， X ,是的线性组合，系数是用来 
度量兄可由 F \ ，…， F „ 线性组合表示之程度的.模型中 R ，…， 
的系数 a , ,，•••,〜用统计学的术语叫做“权重”，它表示 X ,依赖 F , 的 
分量（比重).由于历史的原因，在心理学中将模型 （8. 2.1) 的系数％ 
叫做“载荷”，即第 t ' 个变量在第个因子上的载荷(或负荷），反映了 
第 i 个变量在第）个公共因子上的相对重要性. 


2. 变置共同度的统计意义 

因子载荷矩阵 A 中各行元素的平方和记为 M ， 

m 

h ] = (i = 1，2,… ，户） 

称为变量 X ,的共同度. 

为了给出 V 的统计意义，下面来计算 X , 方差: 
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Var ( X ,)= Var ( ，,+£,) = f ]4 Var ( F ,)+ Var (£,)=/ i , 2 + ^- 

上式 表明兄 的方差由两部分组成，第一部分 < 是全部公共因子对 
变量 X 的总方差所作出的贡献，称为 公因子方差; 第二部分 W 是由 
特定因子 e , 产生的方差,它仅与变量兄有关，也称 为剰余方差. 

显然，若 W 大，4必小.而 W 大表明兄对公共因子心，…， 

的共同依赖程度大.当 W = 1 (设 Var ( X ,) = l ) 时， / = 0,即 X ,完全 
能够由公共因子的线性组合 表示； 当时，表明公共因子对 X , 
影响很小， X 主要由特殊因子 e , 来描述•可见 W 反映了变 量兄对 
公因子 F 依赖的程度，故也称公因子方差 W 为 变量兄 的共同度- 

3. 公共因子 F , 的方差贡献的统计意义 

在因子载荷矩阵 A 中，求4的各列的平方和，记为 I 2 , 即 

q) = XI4 (j=l ， 2"” ， W). 

q ) 的统计意义与兄的共同度 M 恰好相反， g 表示第 J 个公共因子 
F , 对 X 的所有分量不，…， X * 的总影响，称为第 j 个公共因子心对 
X 的贡献 ，它是衡量第_/个公共因子相对重要性的指标. 

显然，以愈大，表明杓对 X 的贡献愈大.如果我们把载荷矩阵 
A 的各列平方和都计算出来，使相应的贡献有顺序： 

我们就能够以此为依据，找出最有影响的公共因子.要解决此问 

题，关键是求载荷矩阵 A 的估计 • 

关于因子模型有下列两点需要指出，以便引起读者的注意： 

(1) 模型不受量纲影响.变量 X 量纲的变化等价于作变换： 

X . 其中 c 为对角矩阵，则 

D ( X *) = CD ( X ) C ' = C { AA ' + D ) C ' = CAA ' C ' + CDC ', 
E ( X *) = Cfi . 

记 〆 =0, A * = CA , CIC '= I ' , CDC ，= D ，， e *= Ce ， 则仍有因 
子模型 

IX * = ， + A'F + e *, 

[ S ' = A ' { A'Y + D \ 
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(2) 因子载荷矩阵 A 是不唯一的•若 r 是任一 mXm 正交矩 
阵,则模型 (8. 2. 2) 可表为 

X = fi+ (ADir'F) + e. 

因 


E(m = o, D(r'F) = i, 

COV ( r ' F ， e ) = r ， COV ( F ， e ) = 0， 

故将 r ' F 看成公共因子， Ar 看成相应的因子载荷矩阵.这时 
I = AA'+D = (AD (Ary +D, 

可见，因子载荷矩阵 A 不唯一. 

例 8. 2.1 已知义=(不，…， X 4 )' 的协方差阵2 为： 

"19 30 2 12' 

2 = 30 57 5 23 

_ 2 5 38 47 * 

-12 23 47 68- 

试求满足 （8. 2. 3) 式的因子载荷矩阵 A 和特殊因子的协方差阵 Z ), 
并计算兄的共同度. 

解容易验证， 


2 = 




L 1 8 」 
= AA + D. 


-1 



0 0 
4 0 
0 1 
0 0 


0' 

0 

0 

3- 


因而因子载荷矩阵 A 和特殊因子协方差阵 D 分 别为: 

4 11 厂2 0 0 0 


A 


7 

一 1 


D 


0 4 0 0 
0 0 10 
L0 0 0 3 


即 X 的协方差阵2具有 m = 2 的正交因子模型结构，且的共同 
度为 


W = 4 2 + I 2 = 17. 

第一个特殊因子^的方差 .7^2, X ：的方差可分 解为: 


19 = 17 + 2， 

即 方差=共同度+特殊方差. 
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对 X,G = 2,3,4) 也有类似地分解. 

三、正交 因子模 型的几 何解释 

在因子分析中，我们可以把互不相关的，即两两之间的相关系数 
(夹角余弦)为0,各自方差为1的 m 个公共因子和个特殊因子想 
象成 m + p 个相互正交的单位向量，以它们为坐标轴构成 m + 户维 
空间的一个直角坐标系，并称为因子空间.于是根据模型 (8. 2. 1) ，变 
量兄可以用因子空间中向量尸，+ =(〜， a i 2 ，...， a ,. 綱， 0)’ 表 
示，其中6是 X ,在对应于自己的特殊因子轴上的载荷.由于 X ,标 
准化，显然的长度等于1，即 

II Pi II = V+ a % + ― + a) m + erf = Vvar(X,) = 1, 

此时 A 与各个因子轴心的夹角余弦为 

cos(Pi,Fj) = || Pi || cos<,Pi,Fj) = = r PFj , 

这表明了 P , 与各公共因子的夹角余弦就等于其相应的坐标，也就是 
等于变量兄与各公共因子的相关系数.此外，对于因子空间中分别 
表示变量兄和 X ,的向量 P , 与 P , 的夹角余弦即为它们的内积 

p f p m 

COS (Pi,Pj) = || Pj ||' || || = P'iPj = = r x,.v 

它恰好等于变量兄与；^的相关系数. 

§8.3 参数估计方法 

已知户个相关变量的《次观测值叉 ( , X,y (£ = 1，…， 
n ). 因子分析的目的是用少数几个公共因子(设为 m 个)来描述个 
相关变量间的协方差 结构： 

1 = AA ' + D , 

其中 A=(a,7) 为 pXm 的因子载荷矩阵； £)=diag(c ^， …，为阶 
对角矩阵.也就是估计公共因子的个数/»、因子载荷矩阵 A 及特殊 
因子方差 (i = 1，…， />) ，使得满足 S = AA ' +£). 



§8.3 参数估计方法 301 


由户个相关变量的观测数据计算样本协方差阵作为协方差 
阵的估计.为了建立公因子模型，首先要估计因子载荷^.和特殊因 
子方差 常用的参数估计方法有以下 三种： 主成分法，主因子解和 
极大似然法. 

一、主成分法 

设样本协方差阵 S 的特征值为相应单位正 
交特征向量为 h , l 2 ,— , lp,Wl S 有谱分解式： 

5 = 

| = 1 

当最后 户一 / n 个特征值较小时， S 可近低 I 地分解为 

S 免 V〆；+ …+ UJ' m + D 


(v^/i ， … ， vXX«) 

VIT/; _ 

+ 

V 2 

0 ■ 

AA f + D 9 

vxx _ 


_0 

a l- 


其中 

\a = ,V / X^Z ra ) = (a ij ) pXm , 

< (8.3.2) 

k 2 = % — XX ' “ = 1 ， 2 广 - ，户 ). 

(8. 3. 2) 式给出的 A 和 Z ) k 是因子模型的一个解.载荷矩阵 A 中的 
第 j 列（^]第 j 个公共因子 F , 在 X 上的载荷)和 X 的第_/个主成分 
的系数相差一个倍数(_/+=1，2,…， m ). 故 (8. 3. 2) 式给出的这个 
解常称为因子模型的主成 分解. 

def 

若记可以证明（见本章习题第 
8-4 题）： 

QO «)= + …+ 4, (8.3.3) 

:=1 卜\ 

当 m 选择适当，则近似式 (8. 3.1) 的误差平方和 Q ( m ) 很小. 

公因子个数 m 的确定方法一般有两种，一是根据实际问题的意 
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义或专业理论知识来 确定; 二是用确定主成分个数的原则，选 w 为 
满足： 

A ! + …+ > p 

七 +… + + … + \〆 。 

的最小整数（比如取 n >0. 70且 Fo < l ). 

当相关变量所取单位不同时，我们常常先对变量标准化•标准化 

变量的样本协方差阵就是原始变量的样本相关阵及，再用只代替& 

与上类似，即可得主成分解. 

二、主因子解 

从出发，下面来介绍主成分法的一种修正•设 R - AA '+ D , 
则 

def 

R - D 二 AA f = R W 

称为约相关阵.如果我们已知特殊方差的初始估计 (《 v ) 2 , 也就是已 
知初始公因子方差(即共同度)的估计为 



a; y 

= i — ( o 2 


则约相关阵及*=及一乃为 




\h；y 

r !2 … 


R* = 

r 21 

(办 2* ) 2 … 

r 2 P 


- r pl 

厂户 2 … 

(h；) 


计算 /?* 的特征值和单位正交特征向量，可取前 w 个正特征值 
… >芯>0,其相应的单位正交特征向量为 C “ X ， 
则有近似分解式： 

R f = AA 1 , 

其中 A = ，―, 

令 

fff = 1 — = 1 〆 ..，/*)， 

t=l 

则 A 和 D * =diag (的 ，…， <) 为因子模型的一个解，这个解就称为主 

因子解. 
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在实际应用中特殊因子方差 A 2 或公因子方差（也称为共 同度） 
h ) 是未知的.以上得到的解是近 似解. 为了得到近似程度更好的解， 
常常采用迭代主因子法，即利用上面得到的 ZT = diag (#， …， <) 作 
为特殊方差的初始估计，重复上述步骤，直到解稳定为止. 

因特殊因子方差 a , 2 = 1 — <，故求特殊因子方差的初始估计等价 
于求公因子方差 M 的初始估计.下面介绍公因子方差常用的初始估 
计的几种 方法： 

(1) h ) 取为第 i 个变量与其他所有变量的多重相关系数的平方 
(或者取 fff = l / r ,7 , 其中 〆 '是 iT 1 的对角元素，则 = 

(2) h ] 取为第 z 个变 量与其他变量相关系数绝对值的最 大值； 

(3) 取 A , 2 = l ，它等价于主成分解. 


三、极大似然法 


假定公因子 F 和特殊因子£服从正态分布，那么我们可得到因 
子载荷矩阵和特殊方差的极大似然估计.设/>维观测向量 X (1) ，…， 
X ( n ) 为来自正态总体乂(；《，2)的随机样本，则样本似然函数为//，工 
的函数 L (户， 2). 

设2=乂 A '+ D ， 取户 = X ，则似然函数 L ( X ，^ L 4'+ D ) 的对数为 

山 Z ) 的函数，记为九 Z ))， 求九 D 使 9 达最大 .可以证明使 

f ( A ， D ) 达极大的解 i 和 £) 满足如下方 程组： 

\Sb- l A = Aa + A'b^A), 

. ... 一， （8.3.4) 

\D — diag (5 — AA ) , 

其中 5 = ^g(x (0 -x>(x (1) -xy. 

为保证方程组 (8. 3. 4) 得到唯一解，可附加计算上方便的唯一性 
条件： 

A ' D^A =对角矩阵. 

这个建议基于以下的贝叶斯 观点： 设 F 〜 iV „(0，/„) ，当给定卩=/ 
时， X — 户的条件分布为乂(4/%£>);当给定 X 时， F 的条件分布为 

若 WzrM 为对角矩阵，则 f 
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的分量相互 独立. 

方程组 (8. 3. 4) —般用迭代方法来求得极大似然估计 i 和6 
(见参考文献 [1] 或 [5]). 


四、主成分估计法的具体步骤 


以上三种估计方法中，主成分解应用较广泛.设样本数据阵为 


X 


x n x u 
X 2\ X 22 


匕工 ”1 


X 


l /> 


X 


Ip 




nXp 


则应用主成分估计法的具体步骤如下： 

(1) 由样本数据阵； C 计算样本均值、样本离差阵及样本相关 
阵.样本均值又为 

x =七女 x 0 ) — (x x ， —, x p y f 

样本离差阵£为 

" _ _ def 

£=2 (兄 ‘）一 X )( X 0) - X) J — ^ ( e ,,), 

n 

其中 〜 D U n .—瓦 )( x ( ) - 5 y ); 

t=l 


样本相关阵尺 =( r ,>) ，其中 (£1 ， 2 ，…，户). 

euejj 

(2) 求的特征值和标准化特征向量•记…为 
尺的特征值，其相应的单位正交特征向量为6 4，" •，心 

(3) 求因子模型的因子载荷矩阵 

① 确定公共因子的个数饥.比如取 m 为满足认+心+…+总)/ 
/ >>0. 80 ( 或 0. 70或 0. 90) 的最小正整数; 

② 令 a , = ~J~K li (!. = 1，2+，…，坩），则 A = ( a ! ，…， a „) 为因子载 
荷矩阵. 


⑷求特殊因子方差€ = 1 - (e = 1，…，/>)， X ,的共同 
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度 M 的估计为 


A , 2 = “ = 1，…， />). 

t=l 

(5) 对 m 个公共因子(或称潜因子，主因子)作解释•求出因子载 
荷矩阵>1后，即得可测变量：^，…， X ,由 m 个不可测的公共因子及 
各自特殊因子的表示式，但这 m 个公共因子表示 什么？ 则要结合专 
业知识给出解释. 

例 8 . 3 . 1 (盐泉水化学分析资料的因子分析） 今有20个盐泉， 

盐泉的水化学特征系数值见表 8. 1. 试对盐泉水化学分析资料作因 
子分析(摘自参考文献 [14]). 

表 8.1 盐泉水化学特征系数的数据 


序号 

矿化度 

(g/L) 

(XO 



M 




1 

11. 835 

0. 480 

14. 360 

25.210 

25.21 

0. 810 

0. 98 

2 

45. 596 

0.526 

13. 850 

24. 040 

26.01 

0. 910 

0. 96 

3 

3. 525 

0. 086 

24. 400 

49. 300 

11. 30 

6. 820 


4 

3. 681 

0. 370 

13. 570 

25.120 

26.00 

0. 820 

1.01 

5 

48. 287 

0.386 

14. 500 

25. 900 

23. 32 

2. 180 


6 

17. 956 

0. 280 

9. 750 

17. 050 

37. 20 

0. 464 

0.98 

7 

7. 370 

0. 506 

13. 600 

34. 280 

10. 69 

8. 800 

0.56 

8 

4. 223 

0. 340 

3. 800 

7.100 

88.20 

1. 110 


9 

6. 442 

0. 190 

4. 700 

9.100 

73. 20 

0. 740 

1.03 

10 

16. 234 

0. 390 

3.100 

5. 400 

121.50 

0. 420 

^1 

11 

10. 585 

0. 420 

2. 400 

4. 700 

135.60 

0. 870 

0.98 

12 

23. 535 

0. 230 

2. 600 

4. 600 

151.80 


1.02 

13 

5. 398 

0.120 

2. 800 

6. 200 

111.20 

1. 140 

1.07 

14 

283. 149 

0.148 

1.763 

2. 968 

215.86 


0. 98 

15 

316. 604 

0.317 

1.453 

2.432 

263. 41 

0. 249 

0. 98 

16 

307. 310 

0.173 

1.627 

2.729 

235.70 

0.214 

0. 99 

17 

322. 515 

0.312 

1.382 

2. 320 

282.21 

0. 024 


18 

254. 580 

0.297 

0. 899 

1.476 

410. 30 

0. 239 


19 

304. 092 

0.283 

0. 789 

1.357 

438. 36 

0.193 

1.01 

20 

202. 446 

0. 042 

0.741 

1.266 

309. 77 

0. 290 

0. 99 


解 此例 ， n = 20, /> = 7.使用 SAS / STAT 软件中 FACTOR 过 
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程由相关阵出发进行因子分析. 

规定 / >o = 0. 80来选取公共因子个数使 m 为满足 ( A + A 2 + 
…+总)//>>0. 80的最小正整数 • 

输出8_ 3. 1相关阵的特征值、相邻特征值之差、贡献率和累计贡献率 



从输出 8. 3. 1可以看出，取公共因子的个数 w = 3 , 3 个公共因 
子的累计贡献率在 0. ⑽以上(0.91 6 6)，即说明前三个公共因子反映 
原始变量的信息已占总信息的以上 • 

查看输出 8. 3. 2给岀的因子载荷矩阵 A (它是由前三个特征值 
及其相应的特征向量计算得到的），比如查看 FACTOR 3 对应的列 
(第三个公共因子的载荷向量），除 a 23 = 0. 89278较大外，其余各数 
值都较小，这表示可用叉 2 来解释公因子仏(或者说心主要反映叉 2 
的信息).对某个公共因子进行解释的基本想 法是： 首先看哪些变量 
在这个因子中的负荷量大，然后利用专业知识讨论这些变量组合的 
实际 含意. 由输出 8. 3. 2可见，第一、第二公共因子的载荷中有一些 
数值在0, 5附近的中等负荷，虽也能按以上想法进行解释，但容易使 
公共因子的意义含糊不清.在§ 8. 4 中将介绍因子旋转后的因子载 
荷矩阵，其实际含意将更明显. 

由输出 8. 3. 2,查看每一行，如第一行，可以得出： 

Xi — 一 0. 7156 /^i 0. 5645 -^' 2 + 0. 0456厂 3 + 仨 1 ， 

它给出了变量与公共因子及特殊因子^的关系（即因 
子模型），其他各行类似. 


; 8.4 方差最大的正交旋转 
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辅出 8. 3. 2因子载荷矩阵 A(m = 3) 及毎个公共因子解释的方差 


3 factors wl 1 

be retained bv the PROPORT 1 ON criter 1 on . 

Factor Pattern 


FACTORt FACTORS 

FACT0R3 

XI 

-0.71560 0.56H52 

0.04559 

X2 

0.H1233 -0.13191 

0.89278 

X3 

0 .90960 -0.06H29 

-0.17215 

X4 

0.9HH90 0.04843 

-0.17H93 

X5 

-0.83HS8 0.H6939 

0.0H773 

X6 

0.82555 0.H9675 

-0.13H28 

X7 

-0.68122 -0.6SH59 

-0.20123 

Variance explained by each 

factor 


FACTOR1 FACT0R2 FACT0R3 


H.24HH17 1.251331 0. 

920181 


辅出 8. 3. 3 最 终公因子方差(即 m = 3 时各变置的共同度)的估计 

Final Connunality Cstinates: Total = 6.H15930 

XI X2 X3 KH K5 X6 X7 

0.832839 0.98HH80 0.861139 0.925789 0.919127 0.946322 0.9H6232 


从输出 8. 3. 3 可以得出各变量共同度的估计.从而给出了特殊 
方差的估计，如 

di = l-Ai = l -0. 8328 = 0. 1672. 


§8.4 方差最大的正交旋转 


i 因子分析的目的不仅是求出公共因子，更主要的是应该知道每 

| 个公共因子的实际意义.但由于在§ 8. 3中介绍的估计方法所求出 

[. 的公因子解，其初始因子载荷矩阵并不满足“简单结构准则”，即各个 

f 公共因子的典型代表变量不很突出，因而容易使公共因子的实际意 

义含糊不清，不利于对因子进行解释.为此必须对因子载荷矩阵施行 
旋转变换，使得各因子载荷矩阵的每一列各元素的平方按列向 0 或 
；1两极转化，达到其结构简化的目的. 

L. 
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— 、理论依据 

设因子 模型： X = AF+e, ，…， F „)' 为公因子向量，对 F 

施行正交 变换： 今 2 = VF ( r 为任一阶正交矩阵），则 

X = v 4 rz + e ， (8.4.1) 

且 

D(Z) = dcpf) = r'D(F)r = i m , 

COV(Z,e) = covers,e) = rC0V(F,e) = o, ^ 

D(X) = D(ArZ) + D(e) = ArD(Z W + £> 

= AA ' + D . - 

(8. 4.2) 

(8. 4.1) 和 （8. 4. 2) 式说明，若 F 是正交因子模型的公因子向量，则 
对任一正交矩阵 r ， r ' F = = z 也是公因子向量.相应的 Ar 是公因 
子 z 的因子载荷矩阵.利用此性质，在因子分析的实际计算中，当求 
得初始因子载荷矩阵 a 后，反复右乘正交矩阵厂，使 a 厂具有更明显 
的实际意义.这种变换载荷矩阵的方法，称为因子轴的正交旋转 • 

二、因子载荷方差 

设因子模型 X =- AF +£, A =( a , p > x „ 为公因子向量 F 的因子载 
荷矩阵， 



而 h ] = 2 a i < = 1，…，户） 

为变量 X 的共同度. 

如果 A 的每一列（即因子载荷向量)数值越分散，相应的因子载 
荷向量的方差越大.为消除由于％符号不同的影响及各变量对公共 
因子依赖程度不同的影响，令 
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dl = ^ {i = 

将第列的个数据…，4的方差定义为 

v ^± (4 - d , y/p =》 卜自竞 —( 自訇 ■’ 

其中3, = +自4 则因子载荷矩阵 A 的方差为 


嗜户顯检(测 • 

若 1 ^值越大， A 的第_7个因子载荷向量数值越分散，如果载荷值或 
是趋于1或是趋于0,这时相应的公共因子厂即具有简化结构，因 
而我们希望因子载荷矩阵 A 的方差尽可能大 . ’ 


三、方差最大的正交旋转 

设 m = 2, 因子载荷矩阵为 


取正交矩阵厂= 


b = Ar-- 


■ cos<p — sin 1, 则 
-sin 史 cos 沪」 

_ a n cos<p + a 12 sin^ — a n sin^+ a 12 cosf " 
a 21 cosf + a 22 sinf — a n sin<p+ a 22 cos<p 


L a^cos^ + a p2 sin^> — a^sin^ + ^ P 2 cos 9- 
办 11 厶 12 
def 办 2i 厶 22 


L 〜 1 〜 2 」 

* z = r ， f 的因子载荷矩阵，这相当于将由 巧， f 2 确定的因子平面 
旋转一个角度 t 此时 _ 

Vt = 外自 _-( 齡 ) ] 卜 1 ， 2 )’ 
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令 


% = + ^ 2 ) = 0. 


3 V 


经整理后可知，为使^==0, ^应满足以下关 系式: 

d — 2 a^/p 


tan 钟 : 


-( a 2 — 俨）/， 


若记 




㈣ 2 — 


1 hjj 

\ hjj 


(8. 4. 3) 


Vj = 2 (_7. = 1，2,…，/>)， 


则 

a = 2巧，卜&， 

>-i 尸 1 

c = S ^ = 2 2 -«/>• 

>=i >=i 

当 m >2 时，可逐次对每两个因子 F ,.， 进行以上旋转. 
选择正交旋转的角度办使满足 (8. 4. 3) 式，即使这两个因子的方差 
之和达最大. m 个因子的全部配对旋转，共需旋转次，全部旋转 
完毕即算一次循环(或一轮).经第一轮旋转后计算所得的因子载荷 
方差，此时不能认为 V ⑴就是最大方差，还需从旋转后的载荷矩 
阵出发，再进行第二轮、第三轮旋转，直到 V 不能再增大为止. 

例 8 . 4 . 1 ( 例 8. 3. 1的继续）在例 8. 3. 1中，考虑对因子载荷 
矩阵作方差最大的正交旋转，并由旋转后的因子载荷矩阵解释公共 
因子的含义. 


解 使用 SAS / STAT 软件中 FACTOR 过程的选项要求对因 
子载荷矩阵进行方差最大的正交旋转，并指定公共因子个数 m = 3. 

在此例中，因子载荷矩阵 X 经五轮正交旋转后，每轮因子载荷 
矩阵的方差7«不断增加，即 


V < d = 0. 173828 < 0. 390722 < 0. 391048 


< 0. 391049 < 0. 391049 == V (s)i 
且当 | F ( 5) — V ( 4> |<0. 000001时停止旋转，此时 


y (5) = 0. 391049 

为 V 的最大值.这时经方差最大正交旋转后的因子载荷矩阵 vT 见 



输出 8. 4.1. 


输出 8. 4.1 方差最大正交旋转后的因子载荷矩阵 


Rotat i o 

n Method: Uari«ax 





Orthogonal Trensfornation 

Matrix 



1 

2 

3 


I 

-0.73239 

0.65030 

0.20179 


2 

0.6425? 

0.7581H 

-0.H102 


3 

0.22519 

-0.04835 

0.97311 



Rotated Factor Pattern 



FACTOR! 

FACT0R2 

FACT0R3 


XI 

0.83711 

-0.03957 

-0.16271 


K2 

-0.18571 

0.12H96 

0.96663 


K3 

-0.7H626 

0.55109 

0.02317 


XH 

-0.70031 

0.6596H 

0.01507 


X5 

0.92360 

-0.18917 

-0.17M08 


X6 

-0.31567 

0.91995 

-0.01923 


K7 

0.02655 

-0.93712 

-0.25950 


Uariance explained by each 

factor 



FACTOR! FACT0R2 FACT0R3 



Z .8H0008 2 .516292 1 .059629 


旋转后的因子载荷矩阵的总方差 V ⑸约为初始因子载荷矩阵总 
方差 V ⑴的 2. 25倍， A * 各列的载荷明显向0或1两极方向分化，这 

就大大有利于对公共因子进行解释 • 

(1) 方差最大正交旋转后第一公共因子中各变量的因子载荷有 
正有负，正载荷主要是 X 5 ( Na / K 系数)和 X : (矿化度），它们是钠盐 
形成的显示.负载荷主要是 X 3 ( K . 10V2 盐)和 X 4 (K • 10VC1)， 它 

们表示了钾盐形成的必要物质来源. 

(2) 方差最大正交旋转后第二公共因子中各变量的因子载荷最 
大值为 X 6 (Mg - 10 VCU ， 其载荷为 0. 9199,而 X 3 , 降为次要地 
位.这说明第二公共因子是钾盐形成条件的显示一 Mg * 10VC1, 
正如我们通常所知道的，它反映了钾盐沉淀环境和钾矿物中的成分 
之一的存在，而 K • 10 3 /2盐(叉 3 )和 K • IOVCICX 4 )， 则是钾盐形成 

的不可缺少的物质条件- 

(3) 在第三公共因子中，主要起作用的变量是 X2(Br . 10VC1)， 
它是钾盐或钾矿化的一个环境标志. 
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由上面的分析看出，影响钾盐成矿的主要特征系数是 K . 10 3 /S 
盐 、 K • 10 VC 1 和 Mg • 10 VC 1， 以及较次要的 Br • 10 3 / C 1， 而影响决 
定钠盐形成的是矿化度与 Na / K 系数. 

前面讨论的因子模型( 8 . 2.1) 中公共因子是互不相关的(或正交 
的），进行因子旋转时也是正交旋转，在正交旋转过程中始终保持公 
共因子之间互不相关的 特点. 因此经正交旋转后所得到的解仍是正 
交因子解.如果我们把 m 个公共因子看作坐标轴，有 w 个坐标的点 
02, 1 ，〜 2 ，"‘，〜,)代表因子空间中第/个点的位置，并假设可把 /) 个变 
量分为几个没有重叠的类，旋转到一个简单结构的正交旋转，就与坐 
标轴的刚性旋转是对应的，它使得这些坐标轴在旋转之后尽可能地 
通过这几个类. 

在实际问题中对变量(或样品）产生影响的公共因子，它们之间 
往往有相互的关系，即在因子模型 (8. 2. 1) 中(公共因 
子之间是相关的），我们称这种因子相关的因子模型为斜交因子模 
型，而相关的公共因子称为斜交公因子(简称斜交因子).在大量的实 
际问题中，一组相关变量 X '， X 2 ，…， X p 满足的因子模型一般都是斜 
交因子模型，而正交因子模型只是一种特例，或者作为斜交因子模型 
的一种近似.而旋转到一个简单结构的斜交旋转，则对应于一个非刚 
性的旋转坐标系，它使得旋转后的坐标轴不再垂直，但(近 似地) 通过 
这几 个类. 关于斜交因子的概念及求解方法请见参考文献 [14]. 
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以上几节我们已经讨论了如何从样本协方差阵^或相关阵 
出发，来获得公共因子和因子载荷矩阵(或经正交旋转后的因子载荷 
矩阵），并给出公共因子的解释.但有时要求把公共因子表示成变量 
的线性组合，或反过来对每一个样品计算公共因子的估计值，即所谓 
的因子得分.因子得分可用于模型的诊断，也可作为进一步分析的原 
始 数据. 但请注意，因子得分的计算并不是通常意义下的参数估计， 
而是对不可观测的随机向量 F 取值的估计. 
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下面介绍估计因子得分的几神常用方法. 

一、 加权最小二乘法 

设 X 满足正交因子模型(不妨设 ^=0) 

X = AF + e . 

假定因子载荷矩阵 A 和特殊因子方差已知，而把特殊因子£看作误 
差.因 Var ( e ,.) = a , 2 (V = 1，…， />) 一般不相等•于是我们用加权最小 
二乘法估计公因子 F 的值. 

用误差方差的倒数作为权重的误差平 方和： 

£ 2 def 

⑼- 1 e = (X — AFyD~\X - AF )— cp { F ). 

i=\ a * 

(8. 5.1) 

在 （8. 5.1) 式中， A , D 已知， X 为可观测的，其值也是已知的，求 F 
的估计值户，使 

由^1 = 0,可得到 F 的估计值： 

F = { A ' D - l A )- l A ' D ~ l X , (8. 5. 2) 

这就是因子得分的加权最小二乘估计. 

若假定 X 〜 AG 4 F ， D )， X 的似然函数的对数为 

L ( F ) =- j(X - AFYD-^X - AF ) - j \ n \2^ D \, 

由此得到 F 的最大似然估计仍为 （8. 5. 2) 式，这个估计也称为巴特 

莱特因子得分. 

实际问题中，未知，自然的作法是将它们的某个估计代入 

(8.5. 2) 式.对于样品，其因子得分为 

i ? (0 = ( A ' D - l A )~ l A ' D ~ l X (n (i = 

如果我们用主成分法估计因子载荷矩阵，那么在计算因子得分 

的估计时，通常用不加权的最小二乘法，即用极小化 

A 。 def 

狀 == (X — AFY(X - AF )—</>( F ) 

来估计由 

= 2 A'(X - AF ) = 0 , 
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可得到 F 的估 计值： 户 = G 4' A )- M ' X ， 这就是因子得分的最小二乘 

估计.对于样品其因子得分为 

,(,.〉= ( A ' A ')~ l A ' X m (/ = 1, •••,«). 

对照第七章介绍的样本主成分，可以看到，因子得分= ( 尤 ，…， 
7 L )' 和样本主成分得分 Z «>= ( 2 , 1 ， … ， Z,.„) '仅相差一个 常数： 

fij = Zij/ (i = 1 ， … ,n；j = 1 ，••• ,m), 

其中 A , 是相关阵尺的第 j 大特征值. 


二、回归法 


在因子模型中，我们也可以反过来将公因子表示为变量的线性 
组合，即用 

Fi = 汉 + …+ p ip X p (i = 1 ,••• , m ) (8. 5. 3) 

来计算每个样品的公因子得分 .（8. 5. 3) 式称为因子得分 函数. 以下 
用回归法给出 （8. 5. 3) 式中组合系数&的估计. 

假设变量 X 为标准化变量，公因子/^也已标准化.在最小二乘 
法意义下对因子得分函数进行估计，并记建立的公因子^对变量 X 
满足的回归方程为 


Fj = + …+ b jp X p + e ; {j = 1 ， … ， w). (8. 5. 4) 

下面来估计回归方程 (8. 5. 4) 中的回归系数，心 ，…，~. 

上述问题虽是多对多的回归问题，但^，…，为不可观测的， 
即因子得分的值是待估的.现我们仅知道由样本可得到因子载荷 

矩阵，对因子&，由因子载荷的意义，有 

a l7 = E(X,F,) = E[X, (心不 + …+ b lp X p )~\ 

= b n r n + ••• + b tp r, p (/ = 1,2, •- ,p), 

即 

b n r n H - h b ]p r xp = a u , 

< . (8.5.5) 

、 V/>i + … + b ip r pp = a pr 

以及 

(8. 5. 5) 式 = aj (R 为相关阵）， 


其中 6 0 )=(^i ，卜 2 ,… 也） 1 ， 〜=…，〜)'，故 
b^j) — R~ l aj ij = 1 *2 1 *w). 

记 


人 - 


hi … b \p 
: : 

- C - 


• • 

b ml ― b mp _ 


B 

则有 

■( i ?- 1 a 1 Vl [ a’r 

B = : = : 尺一 1 = A'R^, 

_ a ' m . 

于是利用回归方法所建立的公因子 F 对变量 X 的回归方程为 
\ : |=| : \ = BX = A'R- l X, 


'A - 


"b' m X- 

-F m - 

= 

-bl>X. 


(8. 5. 6) 


其中 i ? 为 pXp 砰平 TO 天件.出忏平 jt - th 入叶几，力 w 丨 h j — 

荷矩阵 A (为 pxm 矩阵），代入 (8. 5 . 6 )式，即得因子得分函数戶的 

计算公式. / / 

此方法是由汤普森 ( Thompson ) ( I 939 )提出来的，所得因子得 

分在文献上常称为汤普森因子得分 • 

此估计也可以从贝叶斯统计的思想来求得.在因子模型中，假 
设和 e 服从正态分布.若 F 有一先验分布为 AL (0， J „)， 当给 
定 F 时， X 的条件分布为 A ^( AF ， D )， 用贝叶斯统计的典型手法可 
以求得，当给定 X 时 f 的条件分布 ( BP 后验分布)仍为正态分布，其 

均值为 

E ( F | X ) = A ' iAA ' + D )~ l X . 

记 SsWCAW + D )— 1 为因子尸对叉的回归 系数. 因子得分函数有 
表 达式： 

F = A ' ( AA ' + D) _1 X = A ' l ~ l X . 

当又=叉 (>) ( ; =1，2，.”，”)时得第7个观测的因子得分 
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用样本值可以计算样本协方差阵 

^ = n — \ 2( 义 《) - x)(x 0) — xy , 

并以它作为 I ：的估计，因子载荷矩阵的估计仍记为 A 于是因子得 
分函数的计算公式为 iX ， 当变量 X 为标准化变量时，样本 
协方差阵 s 就是样本相关阵及，故有 

三、两种估计的比较 

分3种情形进行比较. 

(1) 记 

F ( l ) = { A ' D - l A )- l A ' D ~ l X , 

F (2) = A ' ( AA ' + D )~ l X , 

利用矩阵间的关系式(见本章习题第 8-3 题）： 

A ' ( AA 1 + D )- 1 = ( I m + A ' D - l A )~ l A ' D -\ 

故有 

F (2) = (7 m + A ' D ~ l A )- l A ' D - l X , 

显然 

F ( l )= { A ' D ~ l A )- l U m + A ' D - l A ) F {2) 

=[/„ + U , D- 1 A)- 1 ]F(2), 

式中 A , Z ) 满足约束条件： =对角矩阵，当对角元素近似等 

于0时，两种估计得出的因子得分几乎相等. 

(2) 因 

E ( F (1)| F ) = F , 

E ( F (2)| F ) = (/ ra + A ' D ^ Ar ' A ' D ^ AF , 

这表明第一种估计是无偏的，而汤普森因子得分（回归估计)是有偏 
的. 

(3) 因 

E [( F (1) - F )( F (1) - F ) f ] = ( A ' D ~ l A )~ l , 

E [( F (2) - F )( F (2) - FYJ = ( I m + A ' D - l A )~\ 

这表示第二种估计(汤普森因子得分)有较小的平均预报误差. 

两种估计到底哪一种好，长期以来一直有争论，至今尚未有定 


论. 
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例 8.S.1 ( 例 8.4.1 的继续）在例 8. 4.1 中，角回归法求因子 
得分函数，计算20个样品的因子得分，并绘制第一和第二因子得分 
的散布图. 

解 使用 SAS / STAT 软件中 FACTOR 过程及选项进行因子 
分析并输出因子得分 系数. 由此得出因子得分函数： 

Fi =0. 42452Xi + 0. 07959X 2 - 0. 23210X 3 - 0. 18099X 4 
+ 0. 39673X 5 + 0. 07977X 6 - 0. 27297X 7 , 

F 2 =0. 22999 Xj - 0. 06366 X 2 + 0. 10946 X 3 + 0.18330 X 4 
+ 0.1540 lX 5 + 0. 43450 X 6 - 0. 49645 X 7 , 

F 3 =- 0. 03589 Xi + 0. 97545 X 2 - 0.13310 X 3 - 0.14437 X 4 
— 0. 03085 X 5 — 0. 14683 X 6 - 0.18622 X 7 . 

把 20 个样品的观测值逐个代入以上因子得分函数，即得样品的因子 
得分值.第一和第二因子得分的散布图见输出 8. 5 .1. 


输出 8. S .1 第一、第二因子得分的散布图 
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输出 8. 5. 1是根据样品的因子得分，取 A 和 F 2 两个公共因子 
为坐标袖而绘制的因子得分图.可见20个盐泉除3号和7号外可分 
为三类，第一类为第14〜20号盐泉，它们是以第一公共因子轴 R 上 
得分高，第二公共因子轴 F 2 上得分低为特征;第二类为8〜13号盐 
泉，它们是以心上得分小， F 2 上得分为较大的负值为特征;第三类 
为1、2、4〜6号盐泉，它们是以上得分为较大负值为特征.这三类 
表示三种不同的盐泉. 


§8.6 Q 型因子分析 


根据研究对象的不同，因子分析可分为 R 型和 Q 型两种.当研 
究对象是变量时，属于 R 型因子分析.以上的讨论都是以变量作为 
研究对象，在样品的基础上研究变量之间的相关关系.而变量之间的 
相互关系表现在原始数据矩阵的列与列之间，由相关阵或协方差阵 
出发，研究变量间的相关关系. 

当研究对象是样品时，属于 Q 型因子分析，它是在变量的基础 
上研究样品之间的相互关系.而样品之间的相互关系则表现在原始 
数据矩阵的行与行之间.因此进行 Q 型因子分析时，只需把在 R 型 
因子分析中的变量和样品的作用互相调换，其余处理方法是一致的. 

在进行 R 型因子分析时，变量间的相互关系我们常用相关系数 
来描述.在进行 Q 型分析时，应当选择样品间合适的相似性度量 ，一 
般用相似系数(即夹角余弦)作为样品间相似性的度量. 

设 X m = ( x n , jc i2 ,— , x it> y ,，…， x #)' 是两个样品 
向量，它们间夹角的余弦 

p I p p 

cos<X(,),X 0) > = (i,j= 1,2,… ， n), 

<=1 / V j=l «=1 

( 8 . 6 . 1 ) 

两样品向量间的夹角余弦反映了这两个样品中各变量的观测值之间 
的比例关系，称为相 似系数 .相似系数矩阵为 

Q — (9")”Xn ， 
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其中扣 = C 0 S 〈 X ( 0 ， X W >. Q 是”阶方阵，进行 Q 型因子分析时，需 
要计算 Q 的特征值和特征 向量. 一般 n 较大 ( n 比起变量个数总 
是大很多）时，直接计算 Q 的特征值和特征向量是比较困难的(如超 
出计算机内存，或花费太多的机时等).解决的方法是利用线性代数 
的 结论： 设 Z 为 《 X 户矩阵 ，则矩阵 Z ' Z 与 ZZ ' 有相同的非零特征 
值：…>七>0 ( 9 </>< n ), 其对应的特征向量也有一定的关 
系.由此得出一种双重型的因子分析方法——对应分析方法，这是第 
九章将介绍的统计方法. 

例 8. 6. 1试对表 8. 1中20个盐泉的水化学特征系数作 Q 型 
因子分析. 

解 此例中《 = 20，/> = 7•首先计算样品相似矩阵 Q ， 然后调用 
SAS / STAT 软件中 FACTOR 过程进行 Q 型因子分析，并对 Q 型因 
子载荷矩阵进行方差最大的正交旋转. 

部分结果见输出 8. 6. 1至输出 8. 6. 3 .相似矩阵 Q 的特征值及 
相应贡献率见输出 8. 6. 1，由此输出可见，选三个主因子，它们提供 
的信息已占总信息量的 99. 8%，几乎完全反映了 20个样品的信息 • 


输出 8.6.1 相似矩阵 Q 的前5个特征值和相应贡献率 


Eigenvalues of the Correlation Matrix: 


Total =20 Averaoe = 1 


E 函 genval ua 
Difference 
ion 
ive 



1 

15.089? 

12.2BB5 

0.7545 

0.7545 


2.8032 

0.7291 

0.1402 

0.8946 


3 

2.0741 

2.0416 

0.1037 

0.9983 


0.0325 
0.0322 
0.0016 
1.0000 


0.0003 
0.0001 
0.0000 
1.0000 


因子载荷矩阵见输出 8. 6. 2. 显见各正交因子的载荷不满足“结 
构简化，’的要求，需进一步对载荷矩阵进行方差最大的正交旋转•经 
此旋转后的因子载荷矩阵见输出 8. 6. 3. 

由输出 8. 6. 3可得以下几个 结论： 

(1) 方差最大的正交旋转后第一主因子中8至 I 3 号样品的因 
子载荷都在 0. 9 以上； 其余样品的载荷都较小，故这 6 个样品为一 
类，这一类中载荷最大值 0. 93691所对应的 I 3 号样品可作为典型代 
表. 

(2) 第二主因子中14至20号样品的因子载荷都为较大的值， 
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Rotated Factor Pattern 


FACTOR 1 

0.4471G 

0.16963 

0.06946 

0.53916 

0.t0695 

0.63163 

0.10616 

0.93172 

0.90871 

0.90951 

0.93099 

0.89892 

0.93691 

0.37271 

0.41189 

0.37556 

0.43435 

0.G7G9I 

0.63889 

0.65956 


FACT0R2 

0.38337 

0.81275 

0.02914 

0.20087 

0.81514 

0.54915 

0.16535 

0.29004 

0.32195 

0.37386 

0.32382 

0.40421 

0.29379 

0.91908 

0.90219 

0.91809 

0.89147 

0.72292 

0.75708 

0.73880 


RCT0R3 

0.80516 
0.55605 
0.99706 
0.81538 
0.56889 
0.54592 
0.97075 
0.21839 
0.26567 
0.1816S 
0.16823 
0.1688? 
0.18907 
0.12739 
0.12744 
0.12614 
0.12835 
0.13793 
0.13601 
0.13781 


(3) 第三主因子中 1 至 7 号样品的因子载荷都在 0. 545以上， 
其余样品的载荷都很小，故这7个样品为一类.这一类中载荷最大值 
0. 99706所对应的3号样品可作为典型 代表. 


其余样品除个别的以外载荷都较小，故这7个样品为 一类. 这一类中 
载荷最大值 0. 91908所对应的14号样品可作为典型代表. 


输出 8. 6. 2因子载荷矩阵 A ( m =3) 



Factor 

Pattern 



FACTOR1 

FACT0R2 

FACT0R3 

Q1 

0.84851 

0.84499 

0.51566 

0.09659 

Q2 

0.31(Ht 

-0.43379 

Q3 

0.44151 

0.88695 

0.13488 

04 

0.79656 

0.52415 

0.29434 

Q5 

0.80955 

0.34396 

-0.47524 

QB 

Q7 

0.98015 

0.18344 

0.06484 

0.54353 

0.82619 

0.0S429 

Q8 

0.89034 

-0.17885 

0.41860 

Q9 

0.91332 

■0.13273 

0.38496 

Q10 

0.91546 

■0.21930 

0.33735 

Q11 

0.89260 

-0.23056 

0.38731 

Q12 

0.92306 

-0.23256 

0.30632 

Q13 

0.88514 

-0.20829 

0.41594 

Q14 

0.88691 

-0.17384 

-0.42781 

Q15 

0.90222 

-0.18472 

-0.38951 

Q16 

0.88770 

-0.17583 

-0.42535 

Q17 

0.91067 

-0.18997 

■0 _36667 

Q18 

0.96790 

-0.23772 

•0.08070 

Q19 

0.96373 

-0.23196 

-0.13135 

Q20 

0.96647 

■0 _23445 

-0.10395 


输出 8. 6. 3方差最大的正交旋转后的因子载荷矩阵 A*(m = 3) 


(4) 由表 8. 1的原始数据，比较3,13,14号这三个典型盐泉的 
特征系数，3号盐泉位于钾盐矿区，其特征系数中 ^ s ( K - 10 VC 1)， 
X 4 (K - 10 V 2 盐)的系数高，而 X 5 ( Na / K ) 系数低，属地下水溶滤钾 
盐层后而形成的盐泉 • 14号盐泉属钠盐矿区，钠盐中不具钾矿化， 
其特征系数中 X 3 (K • 10 3 / C 1), X 4 (K • 10 3 /2盐）的系数甚低，而 
X 5 ( Na / K ) 的系数则很高，属于溶滤钠盐而形成的盐泉 • 13号盐泉 
的特征系数在3与 U 号之间，属过渡类型的盐泉. 

为了更直观地对20个盐泉样品分类，可用第一、第二主因子的 
载荷值在平面上作图，然后进行 分类. 

习题八 


8-1 设标准化变量的协方差阵(即相关阵)为 


R 


"1. 00 

0. 63 

0.45" 

0. 63 

1.00 

0. 35 

-0,45 

0. 35 

1. 00- 


试求 m = 

8-2 

= 

A 2 = 0. 6795, 
A 3 = 0. 3672, 


1的正交因子 模型. 

已知题 8-1 中尺的特征值和特征向量分别为 

=1. 9633, h = (0.6250,0. 5932,0. 5075)’ ， 

1 2 = (- 0. 2186, _ 0. 4911,0. 8432)’ ， 

__ / 3 = (0.7494, 一 0.6379, 一 0. 1772)’. 

(1) 取公共因子个数 m = l 时，求因子模型的主成分解，并计算 
误差平方和 Q ( l ); 

(2) 取公共因子个数 m = 2 时，求因子模型的主成分解，并计算 
误差平方和 Q (2); 

(3) 试求误差平方和 Q ( m )<0. 1的主成分解 • 

8-3 验证下列矩阵关系式04为/ > Xm 矩阵） 

(1) {l+A'D~ x Ay l A'D^A=l - (I+A'D~ l Ay l ； 

(2) +£>) -1 =£> -1 - £>" _1 ^(/+ A , D _1 A ) _1 A _1 D ' 1 ; 

(3) A' (AA' +D)- 1 = (/„+A , D-M)- 1 A , D- 1 . 


提示： 考虑分块矩阵 


的逆. 


123456789111 

QQQQQQQQQQQQ 


QQQQQQQn 
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8-4 证明公共因子个数为 m 的主成分解，其误差平方和 Q( w ) 
满足以下不等式 

Q( m ) = S 2 £ 'j ^ 2 4， 

**1 j=l j=m+l 

其中 e =5-U^ +D) = (e,,), 是因子模型的主成分估计. 

8-5 试比较主成分分析和因子分析的相同之处与不同点. 

8-6 我国山区某大型化工厂，在厂区及邻近地区挑选有代表性 
的 8 个大气取样点.每日 4 次同时抽取大气样品，测定其中包含的 6 
种气体的浓度，前后共 4 天，每个样品每种气体实测 16 次，并计算出 
每个取样点每种气体的平均浓度（数据如表 8. 2). 试用因子分析和 
主成分方法分析处理表 8. 2的数据. 


表 8. 2大气污染数据 





0. 0081 

0. 0220 

0. 0220 

0. 0073 

0. 0580 

0. 0430 

0. 2000 

0. 0290 

0. 0120 

0. 0410 

0. 0280 

1. 3800 

0. 0380 

0. 0360 

0. 0890 

0. 0210 


8-7 下表列出邓阜仙岩体的部分化学成分，试用此组数据作因 
子分析. 
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8-8 在某年级 M 名学生的期末考试中，有的课程采用闭卷，有 
的课程采用开卷(考试成绩见表 8 . 3). 试用因子分析方法分析这组 

数据. 


表 8. 3 44名学生闭卷与开卷考试的成绩表 
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第九章对应分析方法 


§ 9 . 1什么是对应分析方法 

对应分析方法是在 R 型和 Q 型因子分析基础上发展起来的多 
元统计分析方法，又称为 R-Q 型因子分析 • 

因子分析方法是用少数几个公共因子去提取研究对象的绝大部 
分信息，既减少了因子的数目，又把握住了研究对象的相互关系.在 
因子分析中根据研究对象的不同，分为 R 型和 Q 型，如果研究变量 
间的相互关系时则采用 R 型因子 分析; 如果研究样品间相互关系时 
则采用 Q 型因子 分析. 但无论是 R 型或 Q 型都未能很好地揭示变 
/量和样品间的双重关系.另方面当样品容量 ”很大(如 „ >1000) ，进 
行 Q 型因子分析时，计算„阶方阵的特征值和特征向量对于微型计 
算机而言，其_和速度都是难以胜任的.还有进行数据处理时，为 
了将数量级相 i 很大的变量进行比较，常常先对变量作标准化处理， 
然而这种标准化处理对样品就不好进行了，换言之，这种标准化处理 
对于变量和样品是非对等的，这给寻找 R 型和 Q 型之间的联系带来 
一定的困难. 

针对上述问题，在20世纪 7 0年代初，由法国统计学家 Benzecri 
提出了对应分析方法，这个方法是在因子分析的基础上发展起来的， 
它对原始数据采用适当的标度 方法. 把 R 型和 Q 型分析结合起来， 
同时得到两方面的结果——在同一因子平面上对变量和样品一块进 
行分类，从而揭示所研究的样品和变量间的内在联系. 

对应分析由 R 型因子分析的结果，可以很容易地得到 q 型因子 
分析的结果，这不仅克服样品量大时作 Q 型因子分析所带来计算上 
的困难，且把 R 型和 Q 型因子分析统一起来，把样品点和变量点同 


时反映到相同的因子轴上，这就便于我们对研究的对象进行解释和 
推断. 

基本 思想： 由于 R 型因子分析和 Q 型分析都是反映一个整体 
的不同侧面，因而它们之间一定存在内在的联系.对应分析就是通 
过对应变换后的标准化矩阵 Z 将两者有机地结合起来 • 

具体地说，首先给出变量间的协方差阵 S R = Z 和样品间的协 
方差阵 S Q ^ ZZ ' ，由于 Z ' Z 和 ZZ ' 有相同的非零特征值，记为 Al>Az 
如果的特征值 A , 对应的标准化特征向量为 w ，，则 
Sq 的特征值 A , 对应的标准化特征向量 


U i = 



由此可以很方便地由 R 型因子分析而得到 Q 型因子分析的 结果. 

由 S R 的特征值和特征向量即可写出 R 型因子分析的因子载荷 
矩阵(记为 A R ) 和 Q 型因子分析的因子载荷矩阵(记为儿 3): 



z/ u V17 

汐 12 ^ ^2 … 




^21 -sTK 

v 22 ••• 


^/~Kn 


Si VI7 

V P2 ^^2 … 

Vpm 



= ，…， VXk )， 


M 11 U U ~^2 ••• U lm 

A = M 2i u n *•* u 2m VX" 

Q : : : 

M n\ VI7 M„ 2 … U nm VJm. 

= ，…， 

由于 5 R 和具有相同的非零特征值，而这些特征值又正是各 
个公共因子的方差，因此可以用相同的因子轴同时表示变量点和样 
品点 ， B 卩 把变量点和样品点同时反映在具有相同坐标轴的因子平面 
上，以便对变量点和样品点一起考虑进行分类. 
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§9.2 对应分析方法的原理 

一、 对应分析的数据变换方法 

设有《个样品，每个样品观测 f 个指标，原始数据阵为 

x u x xp ' 

nr nr •• • qr 

乂 21 乂22 x 2/> 

A = • . 

nr T ••• T 

L-^nl *^n2 a ”/>」 

为了消除量纲或数量级的差异，经常对变量进行标准化处理，如 
标准化变换、极差标准化变换等，这些变换对变量和样品是不对称 
的.这种不对称性是导致变量和样品之间关系复杂化的主要原因.在 
对应分析中，采用数据的变换方法即可克服这种不对称性(假设所有 
数据 : r , v >0, 否则对所有数据同加一适当常数，便会满足以上要求). 
数据变换方法的具体步骤 如下： 

(1) 对数据阵先分别按行和列求和，再求 总和： 



P 

工 11 工 ^\p 

jt=l 


P 

工 21 工 22 … 工 2/> 

^X2k = X 2 - 

• * • 

P 

工 ill 工 ”2 ••• 工 np 

> i ^nk Xn ♦ 

*=1 

X • ] X • z *** X . p 

A, def 

2 •= —了 

/ =i *=i 


其中 X . 产 x,j ( j _= l ，2，...，/>). 

■=1 

(2) 化数据阵 X 为规格化的“概率”矩阵 P ， 令 

1 def 

P = (9.2.1) 


其中& 


…，”…， />)• 不难看出且 


2 = 1 - 

*=i >=i 

因而 />,, 可理解为数据出现的“概率”，并称/>为对应阵. 

类似地可以写出对应阵 p 的行和与列和，并把表示成如下一 
张列 联表： 


Pn 

P\2 

… Pip 

Pi- 

Pzi 

Pll 

… Pip 

iV 

Pn\ 

Pn2 

… Pnp 

Pn. 

尸 .1 

P.2 

… P.P 

1 


其中.可理解为第 ） 个变量的边缘概率 g = i ， …， />); 

: =i 

P - = f ； 化可 理解为第/个样品的边缘概率 G = l ，2, …， n ). 

尸1 

记 


Pi .' 


' P .,' 

- Pn - - 

, c = 

- P . p - 


则 

r — Pip，c = P ' 1 „, (9. 2. 2) 

其中 1 A =(1，1， …， 1)' 为元素全为 1 的户维常向量. 

(3) 从对应阵 P 出发计算变量的协方差阵(考虑 R 型因子分 
析），我们把 P 矩阵中的《个行作为/>维空间中 n 个样品点. 

①消除各样品点出现概率大小的影响，称 

< = 啥，舍，…， ft ) “ = n ) 

为样品 Z 的形象，或/>个变量在第 t 个样品上的分布轮廓 （row 
profiles ), 显然有 

R ' = [ hi hi ... tA-[ ... 么） 

'—1 尸,.，尸,.，，尸, J — ( X ,. , x „ , ， X,J • 
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研究样品点的相互关系一般用两个样品点的欧氏距离来表示，为消 
除各变量量纲不同的影响，引入第々个和/个样品间的加权平方距 
离公式(或称卡方距 离）： 


自 ( ft - gr / p . 


) 2 

p ^ VptJ ' 


(9. 2. 3) 


②消除各变量量纲不同的影响，把 第； 个样品点的坐标化为 


i Pil Pit …_ 

[P i .Vp7 1 ， p i .VF7 z , ' p { . 


1，… ， W ). 


③计算第 j 个变量(即第 ） 列）的加权平均值.以 第〗 个样品点 
的概率 P ,. 作为权重来计算第个变量的加权平 均值： 


y b 二. 


Pi . = P . j ( j = l ，2, …，夕). 


④用加权方法计算第；个变量与第 j 个变量的协方差 

〜 = 自 {jTvK, - ' Pa - 


Pai 

\Vp«. p.. 


~s/ Pa- P-i 


1VP„. P.J 


十 ~ P。- P-i . Pai — 尸 ' 
hx vf „. p.i • n, 


(9. 2. 4) 


Paj — Pg- P-i _ 工 “ 一 X a _ X.j/T 

— Vf„. P.i 一 Vx„. x.\ ' 


令2=(~)为《父/>矩阵，则变量间的协方差阵为 

Sr = Z’Z = iaij) pxp . 
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(4) 从 P 出发计算样品间的协方差阵(考虑 Q 型因子分析).用 
类似地方法可以得出《个样品间的协方差阵 So 为 

Sq = ZZ 1 = (A,>).x«* 

(5) 进行数据的对应变换，令 


pi, — Pi- P-, _ x,, — Xj. X.j/T 
VF ,. P.j — VX ,. X.j 


(i = 1 = !,••• ,p). 


(9. 2. 5) 


公式 (9. 2. 5) 即是我们从同时研究 R 型和 Q 型因子分析的角度导出 
的数据对应变换公式. 

如果把所研究的/>个变量看成一个属性变量的个类目；而把 
n 个样品看成另一个属性变量的《个类目，这时原始数据阵 X 就可 
以看成一张由观测得到的频数表或计数表.首先由双向频数表 X 矩 
阵得到对应阵 


P = (/>,；)> Pi,= ^ = 1，= 1 ， …’ 户 ). 

设 n >/> ，且 ra nk ( P ) = />. 下面我们从代数学角度由对应阵 P 来 
导出数据对应变换的 公式： 

(1) 对 P 中心化，令 

= Pa — p i p i = Pi, - m J T ， 

其中 m ， 尸 X ，\^， ] =T • P .- P . j , 它是假定行与列两个属性变量不 

相关时在第单元上的期望频数值. 

记？= (?, v )„ x ，.由 （9. 2. 2) 式可得 

P = P - rc ' , (9.2.6) 

因 FlfPl — rc ' lfr *— r =0, 所以 rank ( P )< p -1. 令 
D r = diag (尸! , F „.) , D c = diagCP ] ，…，/%)• 

(9. 2. 7) 


(2) 对尸标准化得 Z ， 令 

Z = D ； m PDJ m =^= ( z , v )„ x ” （9. 2. 8) 
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其中 

^ = Pa — Pj-P»j _ — Xi.X.j/T 

Zii — VpTTTj _ VX,.X. ; . 

故经对应变换后所得到的新数据矩阵 z, 可以看成是由对应阵/> 经 
中心化和标准化后所得到的矩阵. 

设用于检验行与列两个属性变量是否不相关的;^统计量为 

(9-2.9) 

«=1 }~\ l J i = i )=1 

其中於表示第 G，j) 单元在检验行与列两个属性变量是否不相关时 
对总; f 2 统计量的贡献 (celkhi2) : 

771 ij 

故; f 2 = 了亡 S4 = Ttr ( Z ' Z ) = Ttr(5 R )—Ttr(5 Q ). 

i'=l )=1 

二、对应分析的原理与依据 

将原始数据阵X变换为2矩阵后，则变量点和样品点的协方差 
阵分别为 = 和知=27 . 心和 S Q 这两个矩阵存在明显的简 
单的对应关系，而且将原始数变换为\后，％关于•是对 
等的，即~对变量和样品是对等的. 

为了进一步研究 R 型与 Q 型因子分析，我们利用矩阵代数的一 
些结论. 

引理 9. 2. 1设 5 r = Z , Z , 知=27，则和知的非零特征值 
相同. 

引理 9. 2. 2若^是 Z'Z 相应于特征值 A 的特征向量，则 u = Zv 
是 ZZ' 相应于特征值 A 的特征向量. 

定义 9. 2. 1 ( 矩阵的奇异值分解） 设2：为 《X 力 矩阵， 
rank(Z) = m ^ min(n — 1，/> — 1) , 

Z l Z 的非零特征值为…>4>0,令 di = ^/~K (/ = 1，…， m)， 
则称忒为 Z 的奇 异值. 如果存在分 解式： 

Z = UAV , , (9.2.10) 



其中 [/ 为” X ”正交矩阵， v 为 pxp 正交矩阵， A 为 n 乂 P 对角矩 
阵(前 w 个对角元为 di ，." ， d m ， 其余兀素均为 0) ，则称分解式 Z = 
fMV ' 为矩阵 Z 的奇异 值分解 • 

记 

f/ = (f；! i U 2 ), V = (Y, ] V 2 ), An = diagW ”."，^， 

其中 lh 为 nXm 的列正交矩阵， V ' 为 pXm 的列正交矩阵，则奇异 
值分解式 (9. 2.10) 等价于 

Z = U jAnVj . (9. 2.11) 

引理 9. 2. 3 任意非零矩阵 Z 的奇异值分解必存在 • 

引理 9. 2. 3的证明就是具体求出矩阵 z 的奇异值分解式(见参 
考文献 [7]). 从证明中可以看出：列正交矩阵 A 的 w 个列向量分别 
是 Z ' Z 的非零特征值 A ，…， / L 对应的特征向量;而列正交矩阵 
的 m 个列向量分别是的非零特征值 Ai ，-, A » 对应的特征向量， 
且 U ^ ZV . A ： 1 . 

矩阵代数的这几个结论为我们建立了因子分析中 R 型与 Q 型 
的关系.借助以上引理 9. 2. 1和引理 9 . 2. 2,我们从 R 型因子出发可 

以直接得到 Q 型因子分析的结果. 一 

由于与 S Q 有相同的非零特征值，而这些非零特征值又表示 

各个公共因子所提供的方差，因此变量空间中的第一公共因子、 
第二公共因子、…，直到第个公共因子，它们与样本空间 R ” 中对 
应的各个公共因子在总方差中所占的百分比全部相同. 

从几何的意义上看，即中诸样品点与股，中各因子轴的距离 
平方和，以及 K " 中诸变量点与中相对应的各因子轴的距离平方 
和是完全相同的.因此可以把变量点和样品点同时反映在同一因子 
轴所确定的平面上（即取同一个坐标系），根据接近程度，可以对变 
量点和样品点同时考虑进行分类. 

三、对应分析的计算步骤 

对应分析的具体计算步骤 如下： _ 

(1) 由原始数据阵 X 出发计算对应阵尸和对应变换后的新数 
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据阵 Z ， 计算公式见 （9. 2.1) 和 （9. 2. 5). 

(2) 计算行轮廓分布(或行形象分布），记 


R = 

:(f)=( 

則 = 

, def 

= D； l P — 

- R [_ 


\ 入 ” 1 n xp ' 

•* ** 1 nXp 


- K - 


尺矩阵由 X 矩阵(或对应阵 P ) 的每一行除以行和得到，其目的在于 
消除行点(即样品点）出现“概率”不同的影响.比如 g ，*‘ 2 行表示两篇 
文章（即两个样品）使用/>种词汇（即户个变量，下表为/ > = 6) 的频 



X x 

X z 

Xz 

x A 

Xs 

x 6 



80 

30 

25 

15 

60 

55 

x, v 

= 265 

h 

160 

60 

50 

30 

120 

110 

兄 V 

= 530 


数，因第 G 篇文章篇幅大，每种词汇出现的频数都是第^篇的两倍， 
此时这两个行形象应完全 相同： 

( 80 30 25 15 60 55 | _ ( 160 60 50 30 120 110 ) 

1265,265’265,265’265’265)530,530,530’530,530,530)_ 

记 WO ?) = U ,，/ = l , —， n }， AKi ?) 表示《个行形象组成的/>维 
空间的点集,则点集 AKi ?) 的重心(每个样品点以 P ,. 为权重)为 




Pi\ 

Pi. 


1 = 1 

h± 

Ip,.\ 

7 

_ i=i - 


P . 


P. p A 


由 （9. 2. 2) 式可知， c 是/»个列变量的边缘分布. 

(3) 计算列轮廓分布(或列形象分布），记 

c =(^L x ,=(ft)„ =PDrl ~ 

C 矩阵由 X 矩阵(或对应阵 P ) 的每一列除以列和得到，其目的在于 
消除列点(即变量点）出现“概率”不同的影响. 

(4) 计算总惯量和^统计量，首先由 （9. 2. 3) 的加权平方距离 
公式可知，第 A 个与第 Z 个样品点的; f 2 距离为 



D\k,n = E (If - If) 2 / P -i = - ^'D7\R t - 

我们把 《 个样品点(即行点)到重心 c 的加权平方距离的总和定义为 
行形象点集 WCR ) 的总惯量 Q : 

Q= J^Pi.D 2 (i,c) = 2 P -S _ p -] 

x % Pi - ( p ,, ~ pj-p = (户 ，-) 2 

= hh^ n ~ hh p - p -> 

=E 24 = (9.2.12) 

r = l )=1 

其中 Z 2 统计量是检验行点和列点是否互不相关的检验统计量 ， f 
的计算公式见 (9. 2.9). 

(5) 对标准化后的新数据阵 Z 作奇异值分解，由 （9. 2. 11) 式知： 
Z = U . AnV ', , m = rank ( Z ) Si ； min (n — 1, p — 1)， 

其中 

An = diagCc ^! , d m ) , V [ V i = / m , U [ U ' = I m 
(即 V ^ U , 分别为 pXm 和 《 Xm 列正交矩阵).求 Z 的奇异值分解 
式其实是通过求 S R = Z ' Z 铒阵的特征值和标准化特征向量来得到 • 
设特征值为…>总>0,相应标准化特征向量为 v „ vz ，-, 
v m . 在实际应用中常按累计贡献率 

. + ^ t 7 + 土 丁 > 0. 80 (或0.70,或 0.85) 

确定所取公共因子个数八 z 的奇异值0 = 1，…， 
m ). 以下我们仍用 m 表示选定的因子个数. 

(6) 计算行轮廓的坐标 G 和列轮廓的坐标 F •令 

a ,- = D ； v \, 

则 a ： D c a , = l 0 = 1, -, m ). R 型因子分析的“因子载荷矩阵”(或列 
轮廓坐标)为 

F = { d 1 a 1 , d 2 a 2 ,'-' , d m a m ) = D ~ in V ^ 
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d. 

d 2 


Vp7^ u 


… 

d. 

d 2 


Vp7^ 


… Vp 7 2 v ^ 



其中 dp 阶矩阵， R 为 pXm 矩阵. 

令则¥ Z > r ^ = l (2 = 1，…， / W ). Q 型因子分析的“因 
子载荷矩阵”(或行轮廓坐标)为 


G = (, d x b l ^ d 2 b 2 , — . dmbm ) = D r _1/2 LM 

t - 從 11 /- Wj9 ••• / ^ 

Vp 7- Vp 7- 


d \ d-i d m 

vWr Uzi 瓦〜 … VF7 U2 ' 


d \ di d m 

UF7 Unl 7F7 Un2 TF7 Unm \ 

其中 C 2 为 n 阶矩阵， fA 为矩阵.我们常把 a , 或& (/=1, 
… ， m ) 称为加权意义下有单位长度的特征向量. 


注意 行轮廓的坐标 G 和列轮 fe 的坐标 F 的定义与 Q 型和 R 


型因子载荷矩阵稍有差别.关于行和列坐标的定义在 SAS/STAT 
软件的 CORRESP 过程中给出儿种不同的定义供使用者选择，以上 
给出的是最常用的行和列坐标的定义 . G 的前两列包含了数据最优 
二维表示中的各对行点(样品点 ) 的坐标，而 F 的前两列则包含了数 
据最优二维表示中的各对列点(变量点）的坐标. 

(7) 在相同二维平面上用行轮廓的坐标 G 和列轮廓的坐标 F 
(取 m = 2) 绘制出点的平面图.也就是把《个行点(样品点)和/»个列 
点(变量点）在同一个平面坐标系中点图，对一组行点或一组列点，二 
维图中的欧氏距离与原始数据中各行(或列)轮廓之间的加权距离是 


相对应的.但请注意，对应行轮廓的点与对应列轮廓的点之间没有直 
接的距离关系 • 

(8) 求总惯量 Q 和 Z 2 统计量的分解式.由 （9. 2. 12) 和 （9. 2. 9) 
式可知 

n p mm 

Q = 2 S z o = tr ( Z ’ Z ) = = (9. 2.13) 

1 = 1 i=l « = 1 i=l 

其中入 (£ = 1，…， w ) 是 Z ' Z 的特征值 ， di = ^/~K (f = 1，…， m ) 是 Z 
的奇异值 •（9. 2.13) 式就给出 Q 的分解式，第〗个因子(〗=1，…， m ) 
轴末端的惯量•相应的 

m 

X 2 = TQ = (9.2.14) 

» = 1 

给出总; t 2 统计量的分解式. 

(9) 对样品点和变量点进行分类，并结合专业知识进行成因解 
释. 
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在有些多元统计分析的教科书或文献上，介绍对应分析方法时 
分析处理的数据是二维频数表（或称双向列联表). SAS / STAT 软 
件中的 CORRESP (对应分析)过程就是讨论二维频数表中行和列之 
间各种联系的低维图表示法.该过程可进行简单的和多重的对应分 
析.分析处理的数据可以是双向列联表，或者是两个或多个属性变量 
的原始类目响应数据. 

对应分析是列联表的一类加权主成分分析，它用于寻求列联表 
的行和列之间联系的低维图形表示法.每一行或每一列用单元频数 
确定的欧氏空间中的一个点 表示. 

例 9. 3. 1 表 9. 1中的数据是美国在1973到1978年间授予哲 
学博士学位的数目（美国人口调查局， 1979) .试用对应分析方法分析 
该组数据(摘自参考文献 [19]). 
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表 9. 1美国于1973到1978年间授予哲学博士学位的数目 


学科 

1973 

1974 




1978 

L (生命科学） 

4489 

4303 




4361 

P (物理学） 

4101 

3800 




3234 

S (社会学） 

3354 

3286 




3008 

B (行为科学） 

2444 

2587 




3049 

E (工程学） 

3338 

3144 




2432 

M (数学） 

1222 

1196 




959 


解如果把年度和学科作为两个属性变量，年度考虑1973至 
1978年这6年的情况 （6 个类目），学科也考虑6种学科，那么表 9. 1 
就是一张两个属性变量的列联表.这张列联表也可以从所调查的 
107904个学生的原始数据得到. 

使用 SAS / STAT 软件中 CORRESP 过程对表 9. 1的数据进行 
对应分析，可得出行形象（或称行剖面）、惯量 （inertia ) 和 Z 2 ( Chi - 
Square , 有时中文用“卡方”)分解，以及行和列的坐标等. 

输出结果见输出 9. 3. 1至输出 9/3. 5.输出 9. 3. 1给出行轮廓 
分布(或行形象)就是列联表的每一行除以该行的行总和得到的.比 
如 L (生命科学)这一行在“1973”这一列的行形象分量值为 
0. 171526 = 4489/26171 (其中26171 = 4489 + 43034- M 361). 

输出 9. 3. 2给出的总; C 2 统计量等于 383. 856,该值在这个中心 
化后的列联表(戶）的全部5维中是行和列之间相关性的度量，它的 
最大的维数 5( 或坐标轴）是行数和列数的最小值减 1. 在总或总 
惯量的96%以上可用第一维说明，也就是说，行和列的类目之间的 
联系实质上可用一维表示. 


输出 9.3.1 行轮麻分布阵 /f 




Row 

Profiles 





1973 

1974 

1975 

1976 

1977 

1978 

M 生命 科学） 

0.171526 

0.164419 

0.168201 

0.166215 

0.163005 

0.166635 

P ( 物 理学） 

0.187551 

0.173786 

0.171453 

0.163359 

0.155950 

0.147901 

S ( 社 会学） 

0.172824 

0.169320 

0.172309 

0.168908 

0.161643 

0.154996 

B ( 行为科学 > 

0.146637 

0.155217 

0.164937 

0.172677 

0.177596 

0.182936 

E ( 工 程学） 

0.192892 

0.181682 

0.170991 

0.161283 

0.152615 

0.140537 

数学》 

0.188348 

0.184340 

0.177096 

0.154593 

0.147811 

0.147811 
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输出 9. 3. 2惯量和 Z 2 ( 卡方)分解 


Ineztia and Chl-Squaic Deoo^oflition 


9.05845 
D. 00861 
B. 00694 
D. 00414 
0.00122 


Pzincipal 

Ineztia 

0.00342 

0.00007 

0.00005 

0.00002 

0.00000 


Chi- 

Sqtiaxe Pezcent 


CvnlatiTe 

Pezoent 


38 57 76 95 


.653 

96. 

04 

96. 

04 

.995 

2. 

08 

98. 

12 

.197 

1. 

,35 

99 

48 

.852 

0 

4B 

99 

.96 

1.160 

0 

.04 

100 

.00 


Total 0.00356 383.856 100.00 

peqprees o£ Fieedim - 25 


总; f 2 统计量就是检验两个属性变量是否互不相关时的检验统 
计量.行(或列)形象点集间的总惯量 Q 定义为 行点兄 （f = 1 ， …， n) 
到重心 c 的 Z 2 距离的加权和.设的特征值为 

. > 又 2 > … 4〉0， 

则 q = 2 24 = 打⑷ = 自人， z2 = T 自人. 

故总惯量 Q 和总 Y 2 i 计量在输出结果中也给出分解的 形式. 由输= 
9. 3.2 可看出，总 Z 2 或总惯量的96%以上可用第一维说明，它表示 
行点和列点之间的关系用一维表示就足够了. 

由输出 9 . 3 . 3 可以看出，第一维 ( Diml ) 显示6门学科(样 fn ) 授 
予博士学位数目的变化方向；同时也可 看出： 在第一维中坐标最大 
的样品点 (0.110006) 所对应的学科是“行为科学”，该学科授予博士 
学位的数目是随年度的变化而上升的（见输出 9 . 3 . D ;“ 生命科学” 
和“社会学，，变化 不大; 而另外三个学科授予博士学位的数目是随年 
度的变化而下降的. 

输出 9. 3. 3行坐标 



Row Coordinates 



Dinl 

D inZ 

L( 生命科学） 

0.025813 

0.008097 

p ( 物理学） 

-.041273 

-.002420 

SC 社会学） 

0.001352 

—.011413 

B ( 行为科学） 

0.110006 

-.001299 

E ( 工程学） 

-.070379 

■■003671 

H ( 数学） 

-.063942 

0.0227B2 
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输出 9.3. 4列坐标 



Coluian Coordinates 



D iml 

Dim 2 

1973 

-.084027 

0.003252 

1974 

-.050893 

0.002939 

1975 

-.014823 

0.000793 

197 B 

0.024241 

-.012926 

1977 

0.051249 

-.008190 

1978 

0.086413 

0.014276 


由输出 9. 3. 4可以看出，第一维显示出6个年度（变量)授予博 
士学位的数目随年份的增加而递增的变化方向. 

输出 9. 3. 5给出行、列坐标的散布图.该图上的单个数字，如3, 
4，…，8是用年份减去1970而得到的，它们是表示各年度的 列点; 该 
图上的字符，如 L ， P ， …， M 表示各学科，它们是用行标签（学科）的 
第一个字符作为行点的符号.由该散布图可以看出，表示从1973至 
1978年这些年的3,4,…，8在第一坐标轴(纵轴)方向上是按顺序排 
成一排,不过这并不是这次分析所要求的. 

输出 9.3. S 行点和列点的散布 fe 
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从该散布图又可看出，由表示学科的行点沿纵轴——第一维方 
向上的排列显示出，随年度变化授予的博士学位数目从最大(如表示 
“行为学科，，的 B ) 减少到最小(如表示“工程学”的 E ) 的学科排列次 
序. 这幅图给出了授予的博士学位数目依赖于学科变化的变化率.行 
轮廓分布表(见输出 9. 3. 1) 支持这些解释 • 

结合输出9, 3.1 给出的行轮廓分布，由输出 9. 3. 5可看出，6个 
行点和6个列点可以分为三类：第一类包括“行为学科 ( B )”， 它在 
1978年授予的博士学位数目的比例最大;第二类包括“社会学 (S) ” 
和“生命科学 ( L )，，， 它们在1町5至1 9 打年授予的博士学位数目的 
比例都是随年度下降;第三类包括“物理学 ( p )”、 “工程学 ( E ) ” 和“数 
学 ( M )”， 它们在1973和 I 974 年这两年授予的博士学位数目的比例 
最大. 

例 9. 3. 2 试用对应分析研究我国部分省份的农村居民家庭人 
均消费支出结构•选取 7 个 变量： A 为食品支出比重， B 为衣着支出 
比重， C 为居住支出比重， D 为家庭设备及服务支出比重， E 为医 
疗保健支出比重， F 为交通和通讯支出比重， G 为文教娱乐、日用品 
及服务支出比重.考察的地区（即样品）有10个：山西、内蒙古、吉 
林、辽宁、黑龙江、海南 、四川 、贵州、甘肃、青海(原始数据见表 9 . 2 ). 


表 9. 2中国10个省份农村居民家庭人均消费支出数据 


地区 

A 

B 

C 

D 

E 

F 

G 

1 

山 


0. 583910 

0.111480 

0. 092473 

0. 050073 

0. 038193 

0.018803 

0. 079946 

2 

内蒙古 

0. 581218 

0. 081315 

0.112380 

0. 042396 

0. 043280 

0. 040004 

0‘ 083339 

3 

辽 

宁 

0. 565036 

0. 100121 

0. 123970 

0. 041121 

0. 043429 

0.031328 

0. 078919 

4 

吉 

林 

0. 530918 

0. 105360 

0. 116952 

0. 045064 

0. 043735 

0. 038508 

0. 095256 

5 

黑龙江 

0. 555201 

0. 096500 

0. 143498 

0. 037566 

0. 052111 

0.026267 

0. 072829 

6 

海 

南 

0. 654952 

0. 047852 

0. 095238 

0. 047945 

0.022134 

0.018519 

0. 096844 

7 

四 

川 

0. 640012 

0. 061680 

0.116677 

0. 048471 

0. 033529 

0.017439 

0. 072043 

8 

贵 

州 

0. 725239 

0. 056362 

0. 073262 

0. 044388 

0. 016366 

0.015720 

0. 057261 

9 

甘 

肃 

0. 678630 

0. 058043 

0. 088316 

0. 038100 

0. 039794 

0.015167 

0. 067999 

0 

青 

豈 

0. 665913 

0. 088508 

0. 096899 

0. 038191 

0. 039275 

0.019243 

0. 033801 


解表 9. 2给出的数据是一般的原始数据阵，显然不是 
列联表，但我们要使用 SAS / STAT 软件提供的 CORRESP 过程进 
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行对应分析计算.数据表中列变量(八3，(：，0$疋，0)是消费支出 
的几个指标，可以理解为属性变量“消费支出”的几个水平(或类目）. 
数据表中的样品(行变量)是几个不同的地区，可理解为属性变量“地 
区”的几个不同水平(或类目）.数据表 9. 2可以理解为双向频率表， 
使用 CORRESP 过程进行对应分析计算. 

把7个变量用字母 A , B , C ， D ， E ， F , G 表示的目的是为下面作 
散布图时可用这几个字母来表示不同的变量. 

输出 9. 3. 6和输出 9. 3. 7只给出最主要的结果. 

输出 9.3. 6憤置和; C 2 分解 


输出 9.3. 7行点和列点的散布图 
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输出 9. 3. 6给出惯量和 Z 2 统计量的分解，总 X 2 = 0. 25963,总惯 
量 = 0. 02641，总 f 或总惯量的 83. 98%( = 65. 59% + 18. 39%)可用 
前二维即可说明，它表示行点和列点之间的关系用二维表示就足够 
了. 

在输出 9.3.7 中，给出10个样品点（用1，2,…，9,0表示）和7 
个变量点（用 A ， B , …， G 表示）在相同坐标系上绘制的散布图.从图 
中可以看出，样品点和变量点可以分为 两类： 第一类包括变量点 B ， 
C , E ， F ， G 和样品点1，2,3,4,5;第二类包括变量点 A ， D 和样品点 
6,7,8,9,10. 

在第一类中，变量为衣着 ( B )， 居住 ( C )， 医疗保健 ( E )， 交通和通 
讯 ( F ) ，文教娱乐、日用品及服务 ( G ) 的支出分别占总支出的 比重; 地 
区有： 山西(1)，内蒙古(2)，辽宁(3)，吉林(4)，黑龙江(5)，它们位于 
我国的东部和北部地区，说明这5个地区的消费支出结构 相似. 在第 
二类中，变量为食品 （ A )， 家庭设备及服务 ( D ) 的支出分别占总支出 
的 比重; 地区 有： 海南(6)，四川（7)，贵州 （8), 甘肃（ 9 )，青海(0)，它 
们位于我国的南部和西部地区,说明这5个地区的消费支出结构相 
似. 

习题九 

9-1 我国山区某大型化工厂，在厂区及邻近地区挑选有代表性 
的8个大气取样点.每日四次同时抽取大气样品，测定其中包含的 6 
种气体的浓度，前后共四天，每个取样点每种气体实测16次，计算每 
个取样点每种气体的平均浓度，数据见第八章表 8. 2. 

(1) 试用对应分析方法对取样点及大气污染气体进行分类. 

(2) 用 R 型因子分析方法(参数估计方法用主成分法)分析该组 
数据; 并与 (1) 的结果比较之； 

(3) 用 Q 因子分析方法分析该组 数据; 与（1)，（2)的结果比较 
之. 

9-2 第 六章表 6. 7是我国 16 个地区农民1卵2年支出情况的 








0.06968 


0.04774 
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抽样调查的汇总资料，每个地区都调查了反映每人平均生活消费支 
出情况的6个指标. 

(1) 试用对应分析方法对所考察的6项指标和16个地区进行 
分类. 

(2) 用 R 型因子分析方法(参数估计方法用主成分法)分析该组 
数据; 并与 （1) 的结果比较之； 

(3) 用聚类分析方法分析该组 数据; 与（1)，（2)的结果比较之. 
9-3 试证明对应分析中行点坐标矩阵 G 和列点坐标矩阵'之 

间有以下 关系： 

G = D 7 l PFA ~ l , F = D 7 l P ' GA ~ l . 



第 + 章典型相关分析 


典型相关分析是研究两组变量之间相关关系的一种统计方法. 

在实际问题中，经常遇到要研究一部分变量和另一部分变量之 
间的相关关系.例 如： 在工厂里，考察原料的主要质量指标，…， 

与产品的主要质量指标 ( R ， …, Y ,) 间的相 关性; 在经济学中，研 
究主要肉食品的价格与销售量之间的相 关性; 在地质学中，为研究岩 
石形成的成因关系，考察岩石的化学成分与其周围围岩化学成分的 
相 关性; 在气象学中为可靠地分析预报24小时后的天气，研究当天 
和前一天气象因子间的相关 关系; 在教育学中，研究学生在高考的各 
科成绩与高二年级各主科成绩间的相关 关系； 在婚姻的研究中，考察 
小伙子对追求姑娘的主要指标与姑娘向往的小伙子的主要尺度之间 
的相关关系等等. 

一般地，假设有一组变量^与另一组变量 y M …， y ,, 我 
们要研究这两组变量的相关关系，如何给两组变量之间的相关性以 


数量的描述? 


当 p ^ q = i 时，就是研究两个变量 x 与 y 之间的相关关系.相 


关系数是最常见的度量，其定义为 


Cov(x,y) 

War ( X ) War (7) 

当 p > l ，9 = l ( 或夕 =1) 时，/>维随机向量 


_， D '，设 


, S = 


-Sxx 

L-Syx 



，则称 


p / ^YX^xx^XY 
尺 =V — ^ — 

为 y 与 XnX 2 ，…， x P 的全相关系数 ，全相关系数用于度量一个随机 
变量 Y 与一组随机变量 XuXy …， x P 的相关 关系. 
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当 p,q>\ 时，利用主成分分析的思想，可以把多个变量与多个 
变量之间的相关化为两个新的综合变量之间的 相关. 也就是求《 = 
(«!,- 和/3=(成， … ， W ，使得新的综合变量 

V = a i X l + « 2 叉 2 + …+ a p Xp = a'X, 

和 U/ = + Ah + …+ H 

之间有最大可能的相关，基于这个思想就产生了典型相关分析 
(Canonical correlatinal analysis). 这就是本章将介绍的典型相关分 
析和典型冗余分析，它们是偏最小二乘回归（第十一章)的基础. 


§ 10. 1总体典型相关 


一、 典型相关和典型相关变置的定义 


设，…，及，…， y,)' 为随机向量，我们用 x 
和 r 的线性组合和之间的相关性来研究两组随机变量 x 
和 y 之间的相关性.我们希望找到《和/?，使最大.由相 
关系数的定义 ) 


p{a'X,p'Y) 


Cov (o' X, 13'Y) 
^Vai(a'X) WarC^D 


易得出对任意常数 e ，/， c 和 d ， 均有 

ple(a'X) + f,c^'Y) + rf] = p(a'X^'Y). 

这说明使得相关系数最大的和 〆 Y 并不唯一.故求综合变量时 
常限定 Var («'；0 = l , V ar (# y ) = l •于是有以下定义. 

定义 10. 1.1 设 ，…， XJ ， 7=0 ^，...，：^)'，/ >+g 维 


随机向量^的均值向量为0,协方差阵 X>0 ( 不妨设/ ><?) •如果 
存在4=(%，…，〜）’和 lh = (b u ，…， b qi y ，使得 • 


p(a[X y b[Y) = max 

Var(a f X) = l, Var(/9 , Y) = 1 

则称 yx ， 是 x , y 的第一对(组)典型相关变量，它们之间的相 
关系数称为第一个典型相关系数;如果存在，… ，心 *)' 和心 
=(〜，•■• ，bq k y ，使得 
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(1) 和前面々一1对典型相关变量都不 相关； 

(2) Var(aiX) = l, Var(Z?iy) = l ； 

(3) ix 与的相关系数最大， 

则称 dx ， My 是 x , y 的弟6对 (组)典型相关变量 ，它们之间的相 
关系数称为第 a 个典型相关系数 《=2,…，户). 


二、典型相关变量的解法 


设随机向量 

rxi 

z = 

LyJ 


其中 x=(x” …， x,)', y=(y, ，…， y,)' (不妨设 p<qh e ( z )= o ; 
以及 D(Z) = Z = [f 11 f 12 l> 0. 


1. 第一对典型相关变置的求法 

令 V=«'X，W=/J'y， 则 v,w 的相关系数 

_ a’ 艺 uP 


p(V f W) 


V a'I u a V 


求第一对典型相关变量就等价于求 a = ( ffl ，《 2 ，一，《,)'*#=(成，/? 2 ， 
…， 民)'，使得在条件 Var («' X ) = l 和 Var (^ y ) = lT . 

pWX^'Y) = o ^ 12/ 3 

达到最大.这是条件极值问题，用拉格朗日乘子法，令 

= ^ 2 12 /? — ^(^a!2 n a — 1 ) — — 1 ), 


其中 A，A 2 为拉格朗日乘子.为求 p 的极大值.对上式分别关于《,/? 


求偏导，并令其为零，得 

|^=2 12 i ?- A 1 Z 11 a =0, 

-< 

靠=: 21 0： — = 0; 

再分别用 Y ，/?'左乘方程 (10.1. 1)，得 


( 10 . 1 . 1 ) 
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= A 2 = = p(V yW ) 

则方程组 (10. 1.1) 等价于 

( _ + = 0, 
l 2 2 i « — = 0. 

方程组 (10. 1. 2) 有非零解的充要条件是 

" ^11 *^12 


def 


a , 


2 21 


X 2 n 


0, 


( 10 . 1 . 2 ) 


(10.1. 3) 


该方程左端是 A 的 p + q 次多项式.求解 A 的高次方程 （10. 1. 3) ，把 
求得的最大的 A 代回方程组 (10. 1.2)，再求得《和/?，从而得出第一 
对典型相关变量. 

具体计算时，因 A 的高次方程 (10.1. 3) 不 易解; 将其代入方程组 
(10.1. 2) 后还需求解(/> + 9 )阶方程组.为了计算上的简便，常作以 
下 变换： 

用乏^各] 1 左乘方程组 (10. 1. 2) 的第二式，并把 


■^12乡= 

代入方程组 (10.1.2) 的第一 式得： , 

^U^22 1 ^2l a — ^ 2 -2n« = 0 ； 

再用左乘上 式得： 

(S u l Si 2 S 22 l S 2 i — A 2 / 户) a = 0， 

然后由阶特征方程求解 A 和 《. 类似地，可通过 求解？ 阶特征方程 
(: 一 A 2 /,)^ = 0 


来得到 A 和 /?. 故求解方程 (10.1. 3) 等价于求解方程组 (10. 1. 4) : 


( |^% 2 2 2 _ 2 %1 — n t \ = 0, 

i - A 2 /,| = 0. 

由于 2：„>0, 2 22 >0,故 27X )， 各 — />()，所以有 

Mi — •2 11 1 2 12 > S 22 1 2 21 

def 

= — AB, 

其中 a = j - 1/2 » b = 


(10.1. 4) 


但 AB 与 BA = ( Sn 1/2 I ： u S ； 2 m I ； 2 m S 21 ) - ■ S ， 有相同的非零特征 
值，如果记 

7" 1 — y— 1/2 y y— 1/2 
1 — ‘12今2 , 

则 BA ^ TV ，故与 TT ' 有相同的非零特征值.类似地 
M 2 = ■ S 22 1 2 21 > S 11 1 _ S 12 
与 T ' T 有相同的非零特征值. 

由以上分析可知，]^与从 2 有相同的非零特征值，且非零特征 
值的个数至多为/>个(因/><9). 

设 |7 T '— A 2 J ,| =0的/»个特征值依次为则 
T ' T 的 g 个特征值中，除以上/>个外，其余 9 一/>个皆为 0. 故方程 
(10.1. 3) 的 p+q 个根依次为 乂1^!»夂〉0=^.. = 0> — ••• 
> —— A ( A ,. 是 A , 2 的正平方根， i = l ， …， />)• 取其中最大的 A 代 
入方程组 (10.1. 2)，即可求得 a = a lt 卜 lh (设 a x , b \ 满足 a x I，nai = 
1， 6;_ S 2 A = 1) .令 W ^=6; y ， 则 V ” 为第一对典型相 

关 变量; 而 〆 为第一个典型相关系数. 

其实可以证明 ，〜是 7 T ' 的特征值 M 对应的满足= 1的 
特征 向量； 仏是了'了的特征值片对应的满足 <22^ = 1的特征向 
量.故求第一对典型相关变量及典型相关系数的问题，就等价于求解 
T ： T 的最大特征值及相应的特征向量. 


2. 典型相关变量的一般求法 

从第一对典型相关变量的解法中，我们知道求第一对典型相关 
变量和第一个典型相关系数的问题，就是求解 TT ' 的最大特征值和 
相应的特征向量.不仅如此，求解第々对典型相关变量和典型相关系 
数，类似地也是求 7 T ' 的第 A 大特征值和相应的特征向量 • 

定理 10. 1.1 设^，其中…，； V 为声维随机 

向量，，…，!％)'为 g 维随机向量(不妨设/><9).已知 


E ( Z ) = 0, 


D ( Z ) == 2 = 


•^11 芝 12 
-^<21 ^22- 


> 0. 


记:并设/>阶方阵 rr ' 的特征值依次为… 
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>4>° (入 > o , /= i ， …，户）；而 h，h， …， i P 为相应的单位正交特征 
向量.令 


a k ~ — 1 ^22 1 ^21 a t = 1，2,…， />). 

则 v t ^a' k x, 为 X,y 的第; t 对典型相关变量， A * 为第々个 

典型相关系数. 

证明 当 A =1 时，取 


a l = •2 U 1/2 A ，办1 = 又1 1 -^22 1 ^21 <2 1 > 

其中 A 是 7 T ' 的最大特征值片所对应的单位长度特征向量.下面来 
证明： 


pia[X ,b[Y) = a\^ u b\ = max p(a' X ,/3'Y). 

Var(<.'X) = l,Viir(^'y)=l 

任给满足约束条件和 /?' 各 4=1 的维向量《和 9 维向 
量/?，则和 py 的相关系数为 

p(a'X，i3'Y)= a'^ u p = j3'I 21 a 

— yl /2 y _ i /2 y y ~ l /2 yi /2 

— P ^22 ^22 么 21‘11 ^11 a 


=J'T' ~a (其中 5=2;( 2 « ，及 =^ 2 /?) 


< [ 歹 ' 哀 ] 1/2 [(r 2 )，(r s)] 1/2 ； 

= la'TT 1 aj n . 

以上不等式利用附录中引理 7.1. 不妨设 

«= 2 ( 乂， 

1=1 

其中 A ， … ，&是 IT ' 的/>个单位正交特征向量.由72 = 1，故 2 ^. Z 

«*=1 

=1. 于是 

^'TT' ( j] Cl l]'TT'{ 24 ) 

|=1 )=1 

= E i^c^TT'l, = 2 祝 < A 

i = l j=l i~l 

从而 


pWX , p ' Y ) = ^' Z 21 a < Aj . 

因 A 〖是： TT ' 的最大特征值， A 是相应的单位长度特征向量，所以 
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= jl ' j ' T ' l , = 士 = A 

= max pia ' X ^' Y ), 

Var(o , X) = l,Var(/9T) = l 

由定义 10.1.1 知， ^x，My 是 X，y 的第一对典型相关变量，它们 
的 典型相关系数 (即 第一典型相关系数)为 
假定已经求得々一 1对典型相关变量 

V, = a ' jX , Wt = b\Y (£ = 1，…，是 一1) ， 

其中 ai = In U %, 6, = ；^石 1 為《,，而，，是了了' 的第； 大特征值 M 所 
对应的单位长度特征向量，而且 K G'=l， …，々_1)互不相关， Wi 
(i=l， …，纟一 1) 也互不相关.现在来求第*对典型相关变量及第是 
个典型相关系数.取 

a h = b h = 1 S 22 1 S 2 ia i , 

记 V*=4X， W k = b ' k Y . 显然 

(1) V* 和 V ,， 和的相关系数分别为 

p ( y k , Vi ) = a ' k 2 u ai = a ^- Sn 2 • = ^/； = 0; 

p(.W * > Wi ) = by^nbi — A t l a k Si 2^22 ^ 22 ^ ^22 ^ 21^1 
=Yjl'tTT'li = 0 O'= 1 ，…，是 _ 1). 

(2) Var ( V ， *)= ai 2 na * = l > Var ( W *)=^2 2 2^ = l « 

(3) [和 的相关系数为 

p(y i9 Wj)— a\2 12 bj = X~ l l\X^ ,2 2 n 222 ^i\^\\ n lj = h %TVlj 

= P - 当 1 〜时， (,, = 1,2,.,.). 

lO , 当/关 j 时 

下面只须证明对满足下列条件 

(VarC^X) = 1, Var(/3T) = 1, 

[ pWXjVt ) = 0, p ^' Y , W .) = 0 ( z . = 1，…，々一 1) 

(10.1. 5) 


的一切 a ， y 9 有 

p(.V k ,W k ) 


max p(a' X ,13'Y). 

« ，存满足条件 ( 10 . 1 . 5 ) 
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用类似的方法可以证明，对任给满足条件 (10. 1. 5) 的 a，p， 韦 
pic / X ^' Y ) = /3' I na ^[_ a ' TT ' «] 1/2 , 

其中5 =名( 2 «，满足75 = 1•不妨设5=$>乂，其中小/ 2 广_，心是 

i=l 

TT ' 的/«个单位正交特征向量.由条件 (10. 1. 5)，对 i = l ， … 4一1 
有 

0= p(a'X,V i ) = o'S n ai 

= a ' l -^2 n 2-^ l , = /,= c ,.， 

L >=i 

故 

5 = 乂 •，且 2 c ' 2 = 1 ， 

i=k 

于是 

P f 

a'TT a= 2^. TV 

当 a=a k , /?=〜 时， a:_SiA = A 6, 所以 

pia k X ,b' k Y) = max pWX ,^'Y). f 

«,/ 9 * 足条件 ( 10 . 1 . 5 ) 

由定义 10. 1. 1 知， a' k X,b' k M X,Y 的第々对典型相关变量，它们的 
第々个典型相关系 数为七 U = 2, …， 户). （证毕) 

以上定理 10. 1. 1中，我们假定: S >0, 一般情况协方差阵非负 
定，从而 ■ SY , 毛] 1 不一定存在.但注意到方程 (10. 1.2) 总有非零解， 
因此我们可用广义逆矩阵来求解. 

定义 10 . 1.2 给定一个矩阵 X ，如果有矩阵 D 满足 
ADA = A , DAD = D, (AD)' = AD, CD A)' = DA, 


S c 乂. = s 以 

1=* i=k 


则称 D 是 A 的加号逆，记作 A +. 

A + 是存在唯一的，还有一些基本性质(见参考文献 [7]). 以下根 
据加号逆不加证明地给出更一般的结论 • 

定理 10. 1.2 设2==，其中 X =(；^， 为/>维随机 

向量，7=0^，…， y ,)' 为 9 维随机向量(不妨设 /><?). 已知 
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E ( Z ) = 0, 


D ( Z ) = 2 = 


'2 n 
-芝21 


■^22- 




0 , 


记 T =(^ 2 ) + 2 12 (2^ 2 ) + , m = rank (7 T , )< min (/», 9 ). 并设户阶方 


阵 rr 的非零特征值依次为 aX»^>o a 〉 o “ = i ， …， 


m ); 而，… ，匕 为其相应的单位正交特征向量.令 

a t = (2} f ) + l k , b k = S 2 i a t (A = 1，2,…， w ). 

则 v k = a ' k x, 为 X , Y 的第々对典型相关变量，々为第々个 


典型相关系数. 


三、典型变置的性质 

性质1 设 V „= a k X , 为 X,Y 的第是对典型相关变量 

(是=1，…， />); 令 F =( V , ，…， vv 、 则 


丫 


'Ip 

A ' 



.A 

Ip - 


其中 7 l = diag ( A 1 , A 2 , ••- , X P ). 

此性质说明 V , G = l , … ,/>) 互不 相关； ( j = l , …， />) 互不相 
关; 且 V ,与％ 也互不 相关; 而 〆 [，研,)=入 G = l ， …， />). 

性质2 原始变量与典型变量之间的相关性 • 

求出典型变量后，进一步来计算原始变量与典型变量之间的相 
关系数矩阵，也称为典型结构. 

记 A = (<2 l ，<2 2 ，…， dp ) 为 /> X /> 矩阵， （占1 ，办2， …， ~)为 q 乂 P 
矩阵.设典型随机向量 

V = ( V 1 ,-,^y = { a \ x ,-', a' p xy = ^ x , 

W = ( W x ,-, W p y = { b \ Y ,-, b' p Yy = B ' Y , 

/ >+9 维随机向量 Z 的协方差阵为$ 2 "1>0•则 

L 2 f 21 ^22 - 

COV ( X , F ) = COVdA ' X ) = 2„儿 
COV ( X , l ^) = COV ( X , B ' Y ) = 2 U B , 

cov ( r , y > = coycy .^ x ) = i 21 a , 

COV ( Y , W ) = COV ( Y , B r Y ) = 2 22 B . 

利用协方差进一步可以计算原始变量与典型变量之间的相关系 
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数. 若假定原始变量均为标准化变量，则通过以上计算所得到的原始 
变量与典型变量的协方差阵就是相关系数矩阵. 

若计算这四个相关系数矩阵中各列（或各行)相关系数的平方 
和，还将得出一些有关典型冗余分析的概念(见§ 10. 3). 

性质3设 X和 y 分别为 f 维和9维随机向量，令 
d , + 其中 (：为 />X/» 非退化矩阵， d 为 户维常 向量， G 

为 q 乂 q 非退化矩阵， A 为 9 维常向量.则 

(1) x* 和 r 的典型相关变量为 （O'X* 和 （WY * ,其中 
a ' =C -1 a,, b ' = G 一％ (z'=l，2, …， />); 而 a,, 6,是 ■和 y 的第 f 对 
典型相关变量的系数. 

(2) plia ； yX \( b ； )'y ] = /^,'叉，6.7) ， 即线性变换不改变 
相关性. 


例 10.1.1 已知/>维随机向量 x 和 9 维随机向量 y 的协方差 

x ‘的相关阵及出发求典型相关变量 


阵分别为名试从 Z 
和典型相关系数. 


解取 


C = (diag(2„>) 


TJ 


- 1/2 


G = (diag(_S 22 )) 


- 1/2 


(记号 diag(C) 表示由 C 的对角元素组成的对角矩阵). 


设 


X 

L 7 J 


的相关阵及= 


及 11 R \2 

-尺21 及22」 


，令 


这时线性变换后的 


X ' 
X '- 
.7* J 


CX , Y ' = GY . 


的协方差阵就是 


X . 

L 7. 


的相关阵 /?. 


如果已知 i?， 欲求 x,y 的典型相关变量及典型相关系数时，可 
从及矩阵出发，求 ( r*)' 的特征值和单位正交特征向量（其中 
T ' = R ^ n R u R ； z m ) ，从而得X * ， y * 的典型相关变量 （O' X * 和 


(WY* 及典型相关系数 A, « = 1，…， />) .令 


a, = Ca ' , bi — Gb ' (i. = 1 ,•••>/>), 

则和即为 X , Y 的第 £ 对典型相关变量，它们的相关系数为 

又,. ( t ' = l ,••*,/>). 


例 io . i . 2 已知标准化变量 x^= ( x, ,x 2 )' 和 r= ( l ，y 2 )' 的相 


(0</3< l ). 






R 


Rn 

.RfA 


Rn 

Rn- 


关阵 

其中 


试求 X,y 的典型相关变量和典型$关系数 • 
解由已知的相关阵 i ? 即 可求出 

Rn 


M ： 


1 

1 — a 

, 1 

1 

— V 

1 - a 2 

■ — a 1 ■ 

，木/ == ! _ 


1. 

= R^RuRTz^ = 

.一 tp 2 

(l + a)(l + V ) 

Li l j 

参 


由于 


Li 1」 


的特征值为2和0，故 Mr 的特征值为 

A 卜 a + «ki -Pr^ ， A 卜 0 • 

M ； 对应4的特征向量为，故满足 a ' Rna - 
的向量 a 为 

类似可得 

所以第一对典型相关变量为 
Fj = a'X 

W l = b'Y 

而第一个典型相关系数为 
Pi 


V2(l 

' V 2 a ~^ yLiJ ' 

(Xj + X 2 ), 




2 Q + y ) 


-( f , + y 2 >. 




V(1 + a)(l C0<Pl< 1)- 


因 |«|<1，|H<1， 显然有巧>化这表明第一个典型相关系数一般 



5 * 00 - 
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大于两组原变量之间的相关系数. 

§10.2 样本典型相关 

设总体 z= (x , ，… ，… , Y „ y ，在实际问题中，总体的均值 
向量 E(Z) = // 和协方差阵 D(Z) = 2 通常是未知的，因而无法求得 
总体的典型相关变量和典型相关系数•首先需要根据观测到的样本 
数据阵对 Z 进行估计. 

已知总体2的《次观测数 据为： 

. . 


Z ⑴: 

于是样本数据阵为 


0=1，2，…， w ) ， 


(0 」(户 + 9 )xi 


^ll 

•^12 

… X \p 

yn 

yu … 


工 21 

X 22 

• • • "T* 

丄 IP 

3^21 

3^22 … 

y 2g 

- 及 1 

工 《2 

… 工 n P 

ym 

y”2 … 

y nq - 


若假定 Z 〜沁+,(仏^：)，则协方差阵2的最大似然估计为 

1 = ^^iz io -z){z w -zy, 

71 

其中2==士 .令 5=-3ri：,5 矩阵也称为样本协方差阵. 

71 t=*l n 1 

r 2 n I S 12 l 

、rr xA I 、> r*A — 4 ■•一 I >_• — I »i v> 


，为/ > 阶矩阵.将 S 相应剖分为 


' SnjSu ； 
-5 21 ; 522 - 


显然，*^0’，）=1，2)是2, ; 的无偏估计量.下面我们将从样本协方差 
阵 S 出发，来讨论两组变量间的相关关系. 

一、样本典型相关变置和典型相关系数 

不妨设 *S>0 .令 T=S] 1/2 U 2 1 1/2 , 并设 TT' 的特征值依次为 
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a > o ， t _= i ， …，/»)，夂 u = i ，...，/>) 为 ft ， 的特 
征根％所对应的单位正交特征向量.令 

[a t = 5" 1/2 4, 

I . (10.2.1) 

= \ 1 ^22 ^ Z\^k » 

则 v *= a ； x , 此 =4 iy 为 x , y 的第是对样本典型相关变量;而 A * 为 
x , y 的第々个样本典型相关系数. 

以上我们从样本协方差阵* s 出发，导出了样本典型相关变量和 
样本典型相关系数.另外也可以从样本相关阵 R 出发来导出样本典 
型相关变量和样本典型相关系数. _ 

设样本相关阵尺 =(r, 7 )， 其中 r ^ Sij /^/ suSjj , •为样本协方差阵 
•S 的元素.把 i? 相应剖分为 


尺 11 ^12 

•/?21 尺 22 - 



Vs^ 

0 _ 


Sp+\,p+i 

0 

Di = 

攀 

• 

y Dz = 

• 

. 


. 0 



. 0 

*V 5/>4-g,/>+q_ 


Sn — DiRi\Di ^ Szz = 乃2尺22乃2， 

S \2 = D1R . 12D2 » *521 — 及21 乃 1. 

记亍=^ 1/2 及 12 尺 2 — 2 1/2 ,求 rr 的特征值.依次记 fr 的特征值为 

(A,.〉0,2’= 1，…， />) ,夂 (k = \ ，…， p ) 为 了了’的特征 
值所对应的单位正交特征向量，则 

\v h = = 

V* = (A -1 ^ 1 Rn l RnRu u %yr = b[Y 
为 x,y 的第 a 对样本典型相关 变量; 而 L 为的第 a 个样本典 
型相关系数(& = 1，2,…， />)• 
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二、典型相关系数的显著性检验 


1. 检验只 。：^12 = 0 

总体 Z 的两组变量义=(兄，…， X〆 和7=0^，…， y ,)' 如果不 
相关，即 cov(x,y)=:s 12 =o, 则以上有关两组变量典型相关的讨 
论就毫无意义.故在讨论两组变量间的相关关系之前，应首先对假设 
Ho 作统计检验. 

设总体 z 〜;^ + , (+2) ，用似然比方法可导出检验 H 。 的似然比 
统计量 

151 

|5„||5 22 r (10.2.2) 

其中 P + q 阶矩阵 *5 是2的最大似然估计，分别是，為 2 的 
最大似然估计. 

似然比统计量4的精确分布已由霍特林(1936)， Girshik (1939) 
和 And ers 0 n (1958) 给出，但表达式很复杂.以下我们给出 A 的近似 
分布. 


利用矩阵行列式及其分块行列式的关系，可得出 

1*^ I = 1*^22 I * 1^11 _ ■Si 2 5 22 1 52l | 


故 


= I 〜丨 • |5„丨 • |7, -5 1 - 1 1 5 12 5- 1 5 21 |. 


A=\I P - S^SuS^S^ I = ； Q(1 - 人 2 )， 

i = l 

其中 ¥ 是 TT ' 的特征值 (f =冗 1 / 2 〜^ 1 / 2 ).由 d 统计量出发导 
出检验 H 。 的近似检验方法，例如威尔克斯的 A 统计量、 Pillai 的迹、 


Hotelling-Lawley 迹和 Roy 的极大 根等. 现采用 Box (1949) 给出的 

检验 方法： 当时，在//。成立时有 

F{- mlnA<C} = P{V^C), 

其中 m = « — l — >+9 + 1)，/=柯， V 为服从; t 2 (/) 的统计量.当 

样本容量《足够大时，由样本值计算样本典型相关系数 V 0 = 1,2, 
…，户)及 

Qi = — win JJ(1 — A, 2 ) =— m^lnd — A-), 
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P = P{V>Q 1 } (y 〜； f 2 (/)). 

如果/ ><«( 比如取 a = 0 . 05)，则否定 H 。， 即两组变量 X 和 y 相 
关; 否则 H 。 相容. 

2. 检验 A t -0 a = 2, … ，户） 

当否定 H 。 时，表明 X ,7 相关，进而可得出至少第一个典型相 
关系数々#0,相应的第一对典型相关变量心，；^可能已经提取了 
两组变量相关关系的绝大部分信息.两组变量余下的部分可认为不 
相关，这时/ I ,〜0 (A = 2, …， />). 故在否定 H 。 后，有必要再检验 //f 
(々 = 2,…，/>)，即第 A 个及以后的所有典型相关系数均为0 ( 々= 2, 3 , 
…， />)• 

这时采用 Bartlett 提出的大样本: f 2 检验，取检验统计量为 

^~ [n — k — y (/> + q + 1) ^] ln(l — Af ), 

由样本值计算样本典型相关系数 M G = 1，2，…，/ >) 及 Q * 值，并计算 
显著性 概率户 * = P { F > Q *}， 其中 F 〜; f 2 (/*)， f t =( p-k + i)( q -k 
+ 1). 如果 />*<«( 比如取 a =0. O 5 )， 则否定 Hf ， 即第 A 个典型相关 
系数显著的不等于 0. 否则认为 A * = 0 •对从 k = 2 开始逐个检 
验，直到某个々。，使 Hy 相容时为止.这时说明第 A 。 个及以后的所 
有典型相关系数均为 0. 


三、样本典型变置的得分值 

假设经检验，有 r ( r </>) 个典型相关系数显著不等于0,这时可 
得 r 对典型相关变量 ( H ,) (t = l , 将样品 

7 _ F «1 

之⑴= 

L 2 (0 J 

代入第/对典型变量中，令 

v h = a ’i — X) (i = 1 ， 2 ，•••，)， 

= b\ (y (0 — F) (t = l ， 2r",w). 

称为第 £ 个样品 z a ) 的第/ 对样本典型变量的得 分值. 
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对每个 i ，可用 (〜， 《4_) “== 1， 2 ，…， n ) 来绘制散点的散布图，散 
点应近似在一条直线上，若有异常点，则应分析原因. 

例 10 . 2 . 1 为了了解某矿区下部矿 Pt (铂） 、 Pd (祀)与 Cu ( 铜）、 
Ni (镍)的共生组合规律.我们从其钻孔中取出27个样品（数据见表 
10.1). 试用典型相关分析研究 Pt 、 Pd 与 Cu 、 Ni 的相关关系. 

解 在此例中 p=q = 2, n = 27. 我们使用 SAS/STAT 软件中 
CANCORR 过程进行典型相关 分析. 部分输出结果见输出 10 . 2 . h 
输出 10. 2. 1中包含三个表格，位于最上面的表格给出第一典型 
相关系数为 ^ = 0. 89 46 ,它比两组变量间最大的相关系数 (即 
y 2 ) = 0. 8691) 都大. 


表 10.1 矿区下部矿 Pt 、 Pd 与 Cu 、 Ni 的数据 


序号 

Pt 

Xi 

Pd 

x 2 

Cu 

Yi 

Ni 

Yz 

序号 

Pt 

Xi 

Pd 

Xz 

Cu 

Yx 

Ni 

Yz 

1 

0.14 

0.30 

0. 03 

0. 14 

15 

0.43 

0. 90 

0.13 

0. 22 

2 

0. 20 

0. 50 

0.14 

0.22 

16 

0. 47 

0. 97 

0. 26 

0. 22 

3 

0. 06 

0.11 

0. 03 

0. 02 

17 

0. 49 

0.79 

0.21 

0. 20 

4 

0.07 

0.11 

0.04 

0.13 

18 

0.47 

0. 77 

0.51 

0.22 

5 

0.12 

0. 22 

0. 06 

0.12 

19 

0. 40 

0. 88 

0. 33 

0.19 

6 

0. 52 

0. 87 

0.19 

0. 20 

20 

0. 66 

1. 30 

0. 21 

0. 30 

7 

0. 23 

0. 47 

0.14 

0.10 

21 

0. 63 

1.30 

0.45 

0.28 

8 

1.19 

0.38 

0. 09 

0. 11 

22 

0. 52 

1.43 

0.31 

0. 23 

9 

0. 37 

0. 66 

0. 14 

0. 15 

23 

0. 44 

0.87 

0.17 

0. 25 

10 

0.36 

0. 60 

0.12 

0.14 

24 

0. 03 

0. 07 

0. 05 

0. 08 

11 

0. 42 

0. 77 

0.17 

0.10 

25 

0.20 

0. 28 

0. 04 

0. 08 

12 

0.35 

0.85 

0. 30 

0.19 

26 

0. 04 

0.10 

0.11 

0. 07 

13 

0.50 

0. 87 

0. 23 

0.22 

27 

0.17 

0. 28 

0. 15 

0. 09 

14 

0. 56 

1.15 

0.29 

0.28 


1 





位于输出 10. 2. 1中间的表格给出检验假设^ = 0 (i = 1, 
2) 的结果.由该表格中“1”所在的这一行，可得到似然比的值为 
0.19964,近似 F 统计量为 U . 2379,显著性概率 （/> 值）为 0.0001 
(即表格中最右列 Pr > F 的值），故在«=0. 01的显著性水平下，否定 
所有典型相关为0的假设，也就是至少有一个典型相关是显著的•由 
“2”所在的这一行，得到的结果说明第二个典型相关是不显著的 
(/) = 0. 9633〉 a ). 
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输出 10. 2.1 典型相关系数及显著性检验 


Statistic 


Canonical Correlation Analysis 


Canonical 
Correlation 


0.894618 

0.009496 


Adjusted 
Canonical 
Corr-elat ion 

0.889469 



Squared 
Canonical 
Correlation 


0.800341 

0.000090 


Test of HO 
currant row 


: The canonical correlations in 
row and all that follow are zero 


Like1ihood 
Ratio 


D.19964137 
0.99990983 


Approx F 


14.2379 

0.0022 


DF 


DF 

46 

24 


Nultivariate Statistics . 

S=2 H—0.5 

Value 


d F Approxinations 
N-10.5 


Milks, Laabda 
Pi 1lal’s Trace 
Hotel 1 ing-Lawley Trace 
Roy's Greatest Root 


0.19964137 

0.80043080 

4.00862032 

4.008530M 


F 

14.2379 

8.0072 

22.0474 

48.1024 


DF 


NOTE: 


F Statistic for Roy’s Greatest Boot is an upper 
MOTE: F Statistic for U11ks 1 Lanbda Is exact. 


Pr 


0.0001 

0.9633 


DF Pr > F 

46 0.0001 

AB 0.0001 
44 0.0001 

24 0.0001 


由 CANCORR 过程还可以生成许多输出结果(省略），如由这两 
组标准化变量可得到的典型相关变量，第一对标准化典型变量 (xr 
和 17 表示 X ,和 y , 的标准化变量)为 

V , =- 0. 0263 X ； + 1. 0161 X ； , 

W l = 0. 32315^+0. 75147；. 

来自第一组变量的第一个典型变量 V ,主要代表(即元素 Pd ) ;而 
来自第二组变量的典型变量％代表17 ( Ni ) 和 >7 ( Cu ). 
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由样本观测数据阵 Z 计算样本协方差阵 

c *^11 ^12 
= . 

- *S 21 5 22 - 

由 *5 矩阵求出样本典型变量后，进一步可以来计算原始变量与^对 
典型变量之间的相关系数矩阵(或称典型结构). 
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假定两组原始变量均为标准化变量(即 S = R ). 若记原始变量 X 


(或 y ) 与典型变量 V (或 M /) 的相关阵为 


R ( X , V )= R n A = CRna ! ，…，/^〜） 

frdK ) ... riX x , V p ) 


- r{X p ,V„)\ pxp 
R ( J , W )= R U B = ( Rnb ” …， 

Xy ,,^,) - hy ^ w ,) 

def • . 

== : : ♦ 

riY ^ W ,) - r ( X q , W t -)\ qXp 

分别计算两组原始变量 X , Y 与典型变量之间的相关系数阵 
中各列相关系数的平方和，还将得出下面一些有关的 概念. 


一、几个概念 

设 rank (Eu ) = r^min ip , q ). 类似于主成分分析，把 V * 看成是 
由第一组标准化变量 X 提取的成分，看成是由第二组标准化变 
量 Y 提取的成分，由相关阵 RCX , V)=RuA = lr ( X J , V t n pXr m 
R(Y , W ) 分别计算第々列平方和除以原变 

量组变差总和/>或9.记 



RAY , W t ) =丄^> 2 00，％)(灸=1，… 〆 ）， 

^ >=i 

并称也 ( x ; v *) (或 尺 /y #*)) 为第 A 个典型变量 V * (或％)解释本 
组变量 x ( 或 y ) 总变差的百分比.记 

/^CX;V\ ，…， D = ■— 2 ^Jr 2 (XjyV k ) f 
P k=l >=i 

R d (X ； W l9 - 9 W m )= 丄 2 i> 2 (H )， 
q k=i >-i 

并称札 ( XiVi ，…， TOC 或札 ( T ;% ，…， W „)) 为前 m ( m < r ) 个典 
型变量 h ，…，(或 W ^， …，解释本组变量 X ( 或 r ) 总变差的 

累计百分比. 
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在典型相关分析中，从两组变量分别提取的两个典型成分首先 
要求相关程度最大，同时也希望每个典型成分解释各组变差的百分 
比也尽可能的大.百分比的多少反映由每组变量提取的用于典型相 
关分析的变差的多少. 

类似于主成分分析，还可以引入前 m 个典型变量对本组第 j 个 
变量 x , (或 y ,) 的贡献等概念(见参考文献 [11]). 

二、典型冗余分析 


我们进一步来讨论典型变量解释另一组变量总变差百分比的问 
题.在典型相关分析中，因所提取的每对典型成分保证其相关程度达 
最大，故每个典型成分不仅解释了本组变量的信息，还解释了另一组 
变量的信息.典型相关系数越大，典型成分解释对方变量组变差的信 
息也将越多. 

类似可以定义&( X ;%)(或为恥(或 A ) 解释另一 
组总变差的百分比.以下给出利用典型变量解释本组变差的百分比 
来计算解释另一组变差百分比的 公式： 

RAX,W k )= 士 
^ >=1 

= X 2 k R d (X；V k ) (k = l".. ， r )， 

RAY i V t )= 丄 ^ > 2 (U*) 

q 

=X 2 t Rj{Y ； W*) ( 是 =1 ， … ， r). 

事实上，由样本典型变量的系数 A 与乂 的公式 (10. 2. 1) 还可以 
得出~与 6 t 之间的关系 

6* = 士 ■S 22 1 5 2 id* <=^ Kbk = S 2 2S2\o.k 

' —^ ^kSub/, — S 21 S = >S2i<*t ， 

以及典型变量与原始变量(假定已标准化)的相关阵，即得 
r(,Yj,V t ) = 

故有 RAY；V t ) = AlRAY；W t X 
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类似还可证明另 一式. 

表示第一组中典型变量解释原变量组的变差被第二 
组中典型变量重复解释的百分比，简称为第一组典型变量的 冗余测 
度； 表示第二组中典型变量解释原变量组的变差被第— 
组中典型变量重复解释的百分比，简称为第二组典型变量的冗余测 
度.冗余测度体现了两组变量之间的相关程度 • 

冗余测度的大小表示这对典型变量能够对另一组变差相互解释 
的程度大小，它将为进一步讨论多对多建模提供一些有用的信息. 
SAS/STAT 软件中的 CANCORR 过程可完成典型冗余分析 • 

例 10. 3. 1 (康复俱乐部20名成员测试数据的典型相关分析） 
康复倶乐部对20名中年人测量了三个生理 指标： WEIGHT (体重）、 
WAIST (腰围）、 PULSE (脉 搏〉， 以及三个训练 指标： CHINS (单 
杠）、 SITUPS (仰卧起坐）和 JUMPS (跳 高). 数据见表 10. 2. 试分析 
生理指标和训练指标这两组变量间的相关性 • 

解在此例中 p^q = 3 ,n = 20 . 我们使用 SAS/STAT 软件中的 
CANCORR 过程对表 10. 2的数据进行典型相关分析 • 


表 10. 2康复俱乐部20名成员的测试数据 


体重 

腰围 

脉搏 

单杠仰卧起坐跳髙 

体重 

腰围 

脉搏 

单杠仰卧起坐 

跳高 

191 

36 

50 

5 

162 

60 

189 

37 

52 

2 

110 

60 

193 

38 

58 

12 

101 

101 

162 

35 

62 

12 

105 

37 

189 

35 

46 

13 

155 

58 

182 

36 

56 

4 

101 

42 

211 

38 

56 

8 

101 

38 

167 

34 

60 

6 

125 

40 

176 

31 

74 

15 

200 

40 

154 

33 

56 

17 

251 

250 

169 

34 

50 

17 

120 

38 

166 

33 

52 

13 

210 

115 

154 

34 

64 

14 

215 

105 

247 

46 

50 

1 

50 

50 

193 

36 

46 

6 

70 

31 

202 

37 

62 

12 

210 

120 

176 

37 

54 

4 

60 

25 

157 

32 

52 

11 

230 

80 

156 

33 

54 

15 

225 

73 

138 

33 

68 

2 

110 

43 


计算结果首先输出6个变量的均值、标准差及生理指标和训练 
指标之间的相关系数阵(省略了）.生理指标和训练指标之间的相关 
性都为中等，其中 WAIST (腰围)和 SITUPS (仰卧起坐)的相关系数 
最大，为 一 0. 6456. 
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输出 10. 3.1 典型相关系数及显著性检验 

Canonical Correlation Analysis 



Canonical 

Mjusted 
Canon 函 cal 
Correlation 

Approx 

StWidard 

Squared 

Canonical 


Correlation 

Error 

Correlation 

1 

0.795608 

0.754056 

0.084197 

0.632992 

2 

0.200556 

-.076399 

0.220188 

0.040223 

3 

0.072S70 


0.228208 

0.005266 


Test of 

HO ： The canon 1 

cal correlat 函 ons in the 


current row and all 

that follow 

are zero 


Likelihood 





Ratio 

Approx F 

Nmn DF 

Den DF Pr > F 

1 

0.35039053 

2.0482 

9 34.22293 0.0635 

2 

0.95472266 

0.1758 

4 

30 0.9491 

3 

0.99473355 

0.0847 

1 

16 0.7748 


输出 10. 3. 1给出典型相关分析的一般结果.第一典型相关系数 
为 0. 7956,它比生理指标和训练指标两组间的任一个相关系数都 
大.检验总体中所有典型相关系数均为0的零假设时显著性概率为 
9. 0635 ( 即 Pr > F 的值），故在 a =0. 10的显著性水平下，否定所有典 
型相关为0的假设，也就是至少有一个典型相关系数是显著的.从后 
面的检验结果可知，只有第一典型相关系数是显著不等于0的.因此， 
两组变量相关性的研究可转化为研究第一对典型相关变量的相关性. 

输出结果中还给出原始变量和标准化变量的典型相关变量的系 
数.因6个变量没有使用相同单位进行测量，因此我们来分析标准化 
后的系数.来自生理指标的第一典型变量 V ,为（原始变量的右上角 
带“ * ”表示为标准化变量）： 

V ! = -0. 7754 WEIGHT *+1.5793 WAIST *—0. 0591 PULSE *, 
它近似地是 WAIST * (腰围）和 WEIGHT * (体重）的加权差，在 
WAIST ^ 上的权重更大些， A 在 PULSE V 脉搏）上系数近似为 0. 
来自训练指标的第一典型变量为 
^! = -0. 3495 CHINS *-1.0540 SITUPS *+0. 7164 JUMPS * , 
它在 SITUPS * (仰卧起坐)上的系数最大.这一对典型变量主要是反 
映 WAIST * (腰围)和 SITUPS * (仰卧起坐）的负相关 关系. 

由输出 10. 3. 2又可看出，来自生理指标的第一典型变量 K 与 







M 1 

HEIGHT 0.2438 
UAIST 0.5421 
PULSE 0.0701 


2 3 

0.2678 0.2679 
0.5478 0.5478 
0.0702 0.0749 


The 

n ica 


: andar< 
ir Own 


dized Variance of t 
Explained by 


生理指标 


The 


Proportion 

0.4508 

0.2470 

0.3022 


Uartables 

CuaulatiMe 

Proportion 

0.4508 
0.6978 
1.0000 


Opposite 
: al Variab 


Canon 丨 cal 
R-Squared 

0.6330 

0.0402 

0.0053 


Proport ion 

0.2854 

0.0099 

0.0016 


les 


Cumulative 
Proport ion 

0.2854 

0.2953 

0.2969 


Standardized Variance of the 训练抱标 
Explained by 

Their Own 

Canonical Variables 


The Opposite 
Canonical Variables 


Proport ion 

0.4081 

0.4345 

0.1574 


Cumulative 

Proportion 

0.4081 
0.8426 
1.0000 



Proportion 

0.2584 

0.0175 

0.0008 


Cumulative 
Proport ion 

0.2584 

0.2758 

0.2767 


Squared Multiple Correlations Between the f ： 
the First 'H* Canonical Variables of the 


训练指标 


es of 


调练指标 


of the 生理指标 


单杠 

仰卧起坐 

跳高 


Squared Multiple Correlations Between the 训练指 W 

—- .* ■ -■* the 


the First 'H' Canonical Variables of 


CHINS 

SITUPS 

JUMPS 


1 

0.3351 

0.4233 

0.0167 


Z 

0.3374 

0.4365 

0.0536 


生理指标 
3 


0.3396 

0.4365 

0.0539 


K 起坐 

跳离 


Correlations 


Canonical Structure 
the 生理指标 and Their Canonical 
VP1 V2 V3 


0.6206 

0.9254 

-0.3328 


-0.7724 

-0.3777 

0.0415 


-0.1350 

-0.0310 

0.9421 


Corrolations Between t 
HI 


CHINS 

8ITUP8 

JUMPS 


•0.7276 

-0.8177 

-0.1622 


VI 嫌推标 and Their Canonical 
U2 U3 


0.2370 

0.5730 

0.9586 


-0.6438 

0.0544 

-0.2339 


Correlations Between 


生理指标 

HI 


0.4938 

0.7363 

-0.2648 


Canon 函 col 


M2 

-0.1549 

-0.0757 

0.0083 


ariabl 

U3 


-0.0098 

• 0.0022 

0.0684 


Corrolations 


CHINS 

SITUPS 

JUMPS 


I 训练指标 

VI 


-0.5789 

-0.6506 

-0.1290 


he Canonical Voriabl 
V2 V3 


0.0475 

0.1149 

0.1923 


-0.0467 

0.0040 

-0.0170 


10.3 典型冗余分析 3 6 5 

位于输出 10. 3. 3 中的第4个表格，给出训练指标组中各个变量 
被生理指标变量组提取的前 A / 个 ( M = l ， 2 , 3 ) 典型变量 h ，…， 
解释变差的累计百分比，即多重相关的平方 和为： 

M 

2r 2 (y ； ,V t ), 

可以看出，只有 CHINS (单杠 ）（0. 3351) 和 SITUPS (仰卧起坐） 
(0.4233) 可被对方变量组的第一典型变量 A 预测，％对 JUMPS 
(跳 高） （0.0167) 几乎没有预测能力•从该输出中的第3个表格，可 
以类似地得出，来自训练指标的第一典型变量对 WAIST (腰围） 
(0. 5421) 有相当好的预测能力，对 WEIGHT (体重 ）（0. 2 U 8) 较差， 
而对 PULSE (脉搏） （0. 0701) 几乎没有预测能力. 

输出 10. 3. 3 CANCORR 过程产生的典型冗余分析结果 


输出 10. 3. 3给出典型冗余分析的 结果. 我们来分析标准化的方 
差，第一典型变量 K 可以解释 45. 08%组内变差，并解释 25. 8 4 %的 
另一组(训练指标)的 变差; 而典型变量％可以解释 4 0. 81%组内变 
差，并解释 28. 54%的另一组(生理指标)的变差.可见第一对典型变 
量 K 和都不能很好地全面地预测另一组变量.第二和第三对典 
型变量实际上都没有给出什么信息，三个典型变量解释另一组总变 
差的累计百分比分别为 0. 296 9 和 0. 2767. 
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WAIST (腰围），以及 A 与 WEIGHT (体重）的相关系数分别为 
0. 9254,0. 6206,都是正的.但在典型变量 h 的表示式中 WEIGHT * 
的系数为负的 （一0. 7754)，即 WEIGHT 在 W 表示式中的系数和它 
与 K 的相关系数反号.来自训练指标的第一典型变量与三个训 
练指标的相关系数都是负值，其中 JUMPS (跳高)在表示式中的 
系数 (0. H 64) 和它与的相关系数（一 0. 1622) 也是反号的.因此， 
WEIGHT 和 JUMPS 在这两组变量中是一个校正(或抑制)变量. 

输出 10.3. 2典型结构一原始变置和典型变置的相关系数阵 


重围搏 

体媵脉 


es 坐 
Mbl 起 
5 重围搏 afa 杠卧«; 
ab 体腰脉 ari 单仰跳 


重围搏 
体屋脉 
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习题十 367 


习 



10-1 设标准化变量 x =< Xj , x 2 y , Y =(, Y l , Y i y . 已知 
的相关阵为 



"1.0 

0. 5 

0. 7 

0.7" 




R = 

0.5 

1.0 

0.7 

0.7 

def 

「匙 

匙] 

0.7 

0.7 

1.0 

0. 6 


■及21 

尺22_ 


L 0. 7 

0. 7 

0. 6 

1. 0- 





试求 x , r 的典型相关变量和典型相关系数. 

10-2 在140个学生中进行了阅读速度，阅读能力 X 2 , 运算 
速度和运算能力 x 4 共4种测验，由所得测验成绩算出相关系数 
阵为 


R = 


"1.00 

0. 63 

0. 24 

0.59" 

0. 63 

1.00 

- 0. 06 

0. 07 

0. 24 

-0.06 

1.00 

0. 42 

.0. 59 

0. 07 

0.42 

1. 00. 


试分析学生的阅读能力和运算能力之间的相关程度. 

10-3 在某年级44名学生的期末考试中，有的课程用闭卷，有 
的课程用开卷(考试成绩见表 8. 3). 试对闭卷(兄，叉 2 )和开卷 ( X 3 , 
X 4 ， X 5 ) 两组变量进行典型相关分析. 

10-4 表 10. 3中是从25个家庭中测到的成年长子和次子的头 
宽、头长的数据.试用典型相关分析方法分析长子和次子头宽、头长 
的相关情况. 


表 10. 3成年长子和次子的头宽、头长的数据 


样品号 










n 


155 



o 


159 



19 


149 





151 




(续表) 







样品号 

长子头长 
( Xj ) 

长子头宽 
( X z ) 

次子头长 
(X3) 

次子头宽 
( X 4 ) 

3 

181 

148 

185 

149 

16 

163 

137 

161 

130 

4 

183 

153 

188 

149 

17 

195 

155 

183 

158 

5 

176 

144 

171 

142 

18 

186 

153 

173 

148 

6 

208 

157 

192 

152 

19 

181 

145 

182 

146 

7 

189 

150 

190 

149 

20 

175 

140 

165 

137 

8 

197 

159 

189 

152 

21 

192 

154 

185 

152 

9 

188 

152 

197 

159 

22 

174 

143 

178 

147 


192 

150 

187 

151 

23 

176 

139 

176 

143 

11 

179 

158 

186 

148 

24 

197 

167 

200 

158 

12 

183 

147 

174 

147 

25 

190 

163 

187 

150 

13 

174 

150 

185 

152 







10-5 某学校为研究学生的体质与运动能力的关系，对38名学 
生的体质情况，每人测试了 7项 指标： (反复横荡的次数）、叉 2 (纵 
跳高 度）、 X 3 ( 背力）、 X 4 ( 握力）、(踏台升降指数）、 X 6 ( 立姿体前 
屈）、 X 7 ( 卧姿上体后 仰）; 对运动能力情况每人测试了 5项指标： X 8 
(50 米跑） 、 X 9 (1000 米长跑）、兄。(投掷）、 X „ (悬垂次数）、 X 12 (持久 
走 ). 7项体质数据和5项运动数据见表 10. 4. 试对这两组数据进行 
典 型相关分析. 


表 10. 4学生体质与运动能力数据 


学生 


k 质情况 

运动能力 

序号 

X , 

mm 

mm 


ca 


x 7 

x 8 

x 9 

Xio 

X n 

X^2 

1 

46 






72 

6.8 

489 

27 

8 

360 

2 

52 

55 

95 

42 

81.2 

18 

50 

7.2 

464 

30 

5 

348 

3 

46 

69 


38 

98.0 

18 

74 

6. 8 

430 

32 

9 

386 

4 

49 



48 

97.6 

16 

60 

6.8 

362 

26 

6 

331 

5 

42 

55 

90 

46 

66.5 

2 

68 

7.2 

453 

23 

11 

391 

6 

48 

61 

106 

43 

78.0 

25 

58 

7.0 

405 

29 

7 

389 

7 

49 

60 

100 

49 

90.6 

15 

60 

7.0 

420 

21 

10 

379 

8 

48 

63 

122 

52 

56.0 

17 

68 

7.0 

466 

28 

2 

362 , 

9 

45 

55 


48 

76.0 

15 

61 

6.8 

415 

24 

6 

386 

10 

48 

64 


38 

60.2 


62 

7.0 

413 

28 

7 

398 

11 

49 

52 

100 

42 

53.4 

6 

42 

7.4 

404 

23 

6 

400 

12 

47 

62 

100 

34 

61.2 


62 

7.2 

427 

25 

7 

407 
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(续表) 


学生 

序号 

P 

t 质情况 

运动能力 

Xi 

x 2 

x 3 

x 4 

X 5 

x 6 

x 7 

x 8 

x 9 

■Xio 

X n 

X\2 

13 

41 

51 

101 

53 

62.4 

5 

60 

8.0 

372 

25 

3 

409 

14 

52 

55 

125 

43 

86.3 

5 

62 

6.8 

496 

30 

10 

350 

15 

45 

52 

94 

50 

51.4 

20 

65 

7.6 

394 

24 

3 

399 

16 

49 

57 

110 

47 

72.3 

19 

45 

7.0 

446 

30 

11 

337 

17 

53 

65 

112 

47 

90.4 

15 

75 

6.6 

420 

30 

12 

357 

18 

47 

57 

95 

47 

72.3 

9 

64 

6.6 

447 

25 

4 

447 

19 

48 

60 

120 

47 

86.4 

12 

62 

6.8 

398 

28 

11 

381 

20 

49 

55 

113 

41 

84. 1 

15 

60 

7.0 

398 

27 

4 

387 

21 

48 

69 

128 

42 

47.9 

20 

63 

7.0 

485 

30 

7 

350 

22 

42 

57 

122 

46 

54. 2 

15 

63 

7.2 

400 

28 

6 

388 

23 

54 

64 

155 

51 

71.4 

19 

61 

6.9 

511 

33 

12 

298 

24 

53 

63 

120 

42 

56.6 

8 

53 

7.5 

430 

29 

4 

353 

25 

42 

71 

138 

44 

65.2 

17 

55 

7.0 

487 

29 

9 

370 

26 

46 

66 

120 

45 

62.2 

22 

68 

7.4 

470 

28 

7 

360 

27 

45 

56 

91 

29 

66.2 

18 

51 

7.9 

380 

26 

5 

358 

28 

50 

60 

120 

42 

56.6 

8 

57 

6.8 

460 

32 

5 

348 

29 

42 

51 

126 

50 

50.0 

13 

57 

7.7 

398 

27 

2 

383 

30 

48 

50 

115 

41 

52.9 

6 

39 

7.4 

415 

28 

6 

314 

31 

42 

52 

140 

48 

56.3 

15 

60 

6.9 

470 

27 

11 

348 

32 

48 

67 

105 

39 

69.2 

23 

60 

7.6 

450 

28 

10 

326 

33 

49 

74 

151 

49 

54.2 

20 

58 

7.0 

500 

30 

12 

330 

34 

47 

55 

113 

40 

71.4 

19 

64 

7.6 

410 

29 

7 

331 

35 

49 

74 

120 

53 

54.5 

22 

59 

6.9 

500 

33 

21 

348 

36 

44 

52 

110 

37 

54.9 

14 

57 

7.5 

400 

29 

2 

421 

37 

52 

66 

130 

47 

45.9 

14 

45 

6.8 

505 

28 

11 

355 

38 

48 

68 

100 

45 

53.6 

23 

70 

7.2 

522 

28 

9 

352 


第+—章偏最小二乘回归分析 

在实际问题中，经常遇到需要研究两组多重相关变量间的相互 
依赖关系，并研究用一组变量(常称为自变量或预测变量)去预测另 
一组变量(常称为因变量或响应变 量）， 除了使用最小二乘准则下的 
经典多元线性回归分析 ( MLR ) ，提取自变量组主成分的主成分回归 
分析 ( PCR ) 等方法外，还有近年发展起来的偏最小二乘回归分析 
( PLS ) 方法. 

偏最小二乘回归分析提供一种多对多线性回归建模的方法，特 
别当两组变量的个数很多，且都存在多重相关性，而观测数据的数量 
(样 本量)又较少时，用偏最小二乘回归分析建立的模型具有传统的 
经典回归分析等方法所没有的优点 • 

偏最小二乘回归分析在建模过程中集中了主成分分析、典型相 
关分析和线性回归分析方法的特点，因此在分析结果中，除了可以提 
供一个更为合理的回归模型以外，还可以同时完成一些类似于主成 
分分析和典型相关分析的研究内容，提供更加丰富、并深入的一些信 
息 • 

本章结合 SAS / STAT 软件中用于完成偏最小二乘回归分析的 
PLS 过程 ，介绍 偏最小二乘回归分析的建模 方法; 并通过例子从预 
测角度对所建立的回归模型进行比较. 

§ 11.1 偏最小二乘回归分析方法 

考虑个因变量与 w 个自变量不，…，叉„的建模问 
题.偏最小二乘回归分析的基本作法是，首先在自变量集中提取第一 
成分是；^，…，兄„的线性组合，且尽可能多地提取原自变量 
集中的变异信 息）； 同时在因变量集中也提取第一成分^1，并要求 
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与 fA 相关程度达 最大; 然后建立因变量 A ，…， 1%与的回归 
方程.如果回归方程已达到满意的精度，则算法 终止; 否则继续第二 
对成分的提取，直到能达到满意的精度为止•若最终对自变量集提取 
r 个成分 ： n ， T 2 ，…， 7 V , 偏最小二乘回归分析将通过建立 Ym …， Y , 
与的回归方程，然后再表示为 R ，…，与原自变量 
的回归方程，即偏最小二乘回归方程. 

为了比较方便，假定/>个因变量 R ， …， 1%与 m 个自变量 X ,， 
…二 均为标准化变量.因变量组和自变量组的《次标准化观测数 
据阵分别 记为： 




… yip' 


•tt • • • nr 

*^11 乂 lm 

y 0 = 

3^21 

… y 2P 

， x 0 = 

工 21 … X 2m 


~y n \ 

… y nP ~ 


- 工 nl … 工 《m - 


现在介绍偏最小二乘回归分析建模的具体 步骤： 

(1) 分别提取两变量组的第一对成分，并使之相关性达最大.假 
设从两组变量分别提取第一对成分为: T , 和 fA ，7\是自变量集 X = 
(兄，…, X „)' 的线性 组合： 


了1 = + …+ w lm X m = w [ X , 

u , 是因变量集 y = ( r ，…的线性 组合： 


Ui = + … + v lp Y p = v [ Y . 

为了回归分析的需要，要 求： 


① : Ti 和 fA 各自尽可能多地提取所在变量组的变异 信息； 

② : H 和％的相关程度达到最大. 

由两组变量集的标准化观测数据阵 X 。和 y 。， 可以计算第一对 
成分的得分向量，分别记为~和 M 1: 


■r„ 

尤 21 

t X = XqW x = • 

- 工 《1 


工 12 … X \m" 


' 


’ll 

尤 22 ••• 工 2m 


加 12 


《21 

X n2 … ^nm- 




- 《《1 - 
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«1 


Y , v x 


3 ^ii : V12 … 

y 2 i yiz … yzp 


- < y”i ym 


y nP 



~^n" 


' u u~ 


v \z 


U 21 


• 


. 


- 


• 

_ 

- v ip- 


-M nl _ 


第一对成分了 i 和 R 的协方差 Cov ( T , ，^^可用第一对成分的得分 
向量6和 Ml 的内积来计算.故而上述①和②两个要求可化为数学分 
析中的条件极值 问题： 

( { t - l , u i )={ X 0 w - l , Y ^ v x )= w \ X ' 0 Y a v ] , -*■ 最大， 
iwjW ^ ||«^|| 2 = 1， ^1^!= I | vi || 2 = l . 

利用拉格朗日乘子法，上述问题可化为求单位向量和使01 = 
wiXiv ^ — 最大.问题的求解只须通过计算讲阶矩阵 

M = X ' 0 Y 0 Y ' 0 X 0 

的特征值和特征向量，且 M 的最大特征值为相应的单位特征向 
量就是所求的解奶，而巧可由奶计算 得到： 

- Y '^ XoW ^ 


Vl 


e ： 


在 SAS / STAT 软件的 PLS 过程中称 w ^ = ( w „， …， w lm )' 为棋型效 
应权重 (Model Effect Weights ); 称 t ； i =( t » n ， …，为因变置权重 
(Dependent Variable Weights ). 

(2) 建立 Y ! ，…，1%对的，以及对: T ! 的回归方 

程.假定回归模型为 

jX 0 = + £i , 

ly 0 = + 厂 1 ， 

其中 h 为 W 维得分向量 ， «i = («!!» •••>«!«)> 卢'1 = (#11，…，〜）分别 
是多因变量而只有一个自变量的回归模型中的参数向量， £l 和 Fl 
分别为” Xm 和 nX /> 残差阵 • 回归系数向量的最小二乘估计 
为 

[a l = l t[Xoj 


1^! = (^ i ) _1 ^ o * 


或 




hir 


II 2 . 
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在 PLS 过程中我们称叫=为模型效应载荷量 (Model 
Effect Loadings ). 

( 3 ) 用残差阵&和&代替 x 。 和 y 。， 然后再重复以上步骤.记 
文。= 上 = A〆 ， 则残差阵 £ 1 = Xo - Xo , F ^ Yo - Yo . 如果残差 
阵&中元素的绝对值近似为0,则认为用第一个成分建立的回归方 
程精度已满足需要了，可以停止抽取成分.否则用残差阵和 R 代 
替 X 。和 y 。， 重复以上步骤，即得： 

W 2 = (切 R = (»21，•••，%)'， 

分别为第二对成分的权重.而 ti — ExUlz ， U 2 = FiV 2 为第二对成分的 
得分向量， 


a 2 = 


Kh 

II ^ II 2 



F\h 

II h II 2 


分别为 X ， y 的第二对成分的载荷量.这时有 
j^o = ( i a ： + t 2 a 2 E 2 , 

= + t 2 ^ f 2 + F I. 

(4) 设 ” X / w 数据阵 X 。的秩为 r^minCw — 1 ，/ n ) ，则存在 r 个成 
分…，~，使得 


l-^o — ,1% + …+ t r a' r -{- E r , 
iy 。 = f i/^i + …+ + F r . 

设 X ,* G = l , …， w ), y / (•/ = 1，…，/>)表示标准化变量，把 

G = 加 *〆^ 十 …+ w km X^ (k = 1 ，一 ，/•) 

代入 


Y J = hU f 2^2 y + — + tr0rj Cj = 1 ， 2 ，…， 户) ， 

即得/>个标准化因变量的偏最小二乘回归 方程： 

= <1久1’ + …+ a 二 X : 0’ = 1，…， />)• 

然后再还原为原始变量的偏最小二乘回归方程： 

^ = a j0 + 〜兄 + …+ a jm X m (j = 1，… ， p \ 

(5) 确定抽取成分的个数 /. 一般情况下，偏最小二乘回归分析 
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并不需要选用存在的所有 r 个成分 — , t r 来建立回归方程，而 
像主成分分析一样，只选用前/个成分 ( Z < r ) ，即可得到预测能力较 
好的回归模型.下面讨论确定抽取成分个数 Z 的几种方法： 

① “舍一交叉验证方 法”： 每次舍去第/个观测0 = 1，…， „) ，用 
余下的 n -1 个观测按偏最小二乘回归方法建模，并考虑抽取々个成 
分后拟合的回归方程，然后把舍去的第/个观测点代入所拟合的回 
归方程，得到巧 （) =1，…，/> ) 在第 z •个观测点上的预测值知 > ⑷. 
对/ = 1，2,…，”重复以上的验证，即得抽取々个成分时第）个因变 
量乙（)=1，…， />) 的预测残差平方和 ( PRESS ) 为 

PRESS ) (是 ） = ( j>„ — j y ,,,(^)) 2 (j = 1,…， 户）. 

f'=l 

7=(:^ ，…，的预测残差平方和为 

PRESS ⑷= 念 PRESS , ⑷. 

尸1 

先对抽取成分的个数々从1至 r 个逐个计算 y 的预测残差平方和 
PRESS (^)，然后选取使 Y 的预测残差平方和达到最小值的々，让/ = 

k. 

② “分批交叉验证方法”：每次扣留连续的 9 个观测作为检验数 
据集，9 = 1时就是“舍一交叉验证方法”，类似地，按使预测残差平 
方和达到最小的准则确定抽取成分的个数. 

③ “分裂样本 (Split-Sample) 交叉验证方法 ，，： 此方法中所扣留 
的用以作为检验数据集的观测不必是连续的，而是按一定宽度抽取 
而构成的.例如第一次扣留的观测为{1,11，21，...}，然后是{ 2 ， 12 , 
22,… } 等等. 

④ “随机样本交叉验证方法，％此方法中所扣留的用以作为检 
验数据集的观测可以是随机抽取. 

以上方法是 SAS/STAT 软件中 PLS 过程提供的，此外还有其 
它的方法(见参考献 [11]). 在实际应用中这些方法所确定的成分个 
数也不完全一致，最后确定成分的个数可综合各种验证的结果及从 
理论上给出的检验方法. 
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§ 11.2 应用例子 

例 11. 2. 1 康复俱乐部对20名中年人测量了三个生理 指标： 
weight (体重）、 waist (腰围）、 pulse (脉搏），并测量了二个训练指标： 
chins (单杠）、 situps (仰卧起坐）、 jumps (跳高 ）（ 测量数据见第十章 
表 10. 2) .试用偏最小二乘回归方法建立由三个生理指标分别预测 
三个训练指标的回归模型，并对所得的计算结果进行分析. 

解 使用 SAS / STAT 软件中 PLS 过程来完成偏最小二乘回归 
分析，并对标准化数据进行分析计算.输出的数据集中包括成分的 
得分向量： A ， …，^，《1，…， M /， 以及偏最小二乘回归方程对个因变 
量的预测结果，其部分结果见输出 11. 2. 1至输出 11. 2 . 3 . 

从输出 11. 2. 1可以看岀，由自变量组抽取 的第々 个成分 K 
(々=1，2,3)可解释，…，兄(或称模型效应)变差的百分比 
分别为 69. 4781%, 22. 6694%和 7. 8525%•而： T * (是=1，2,3)可解 
释因变量组 Y = ( h ，…，变差的百分比分别为 20. 9447%, 
2. 9491%和3.7718%.由此可见: T 2 ， T 3 对 Y 的解释能力已非常微弱 
了.从这里也可以初步直观地看出，只需抽取一个成分乃就已足够 


辅出 11. 2. 1 被偏最小二乘因子解释的变差的百分比 



The 

PLS Procedure 




Percent Variation Accounted for 
by Partial Least Squares Factors 


Nunber of 
Extracted 

Model 

Effects 

Dependent 

Current 

Variables 

Factors 

Current 

Total 

Total 

1 

G9.4781 

69.4781 

20.9447 

20.9447 

2 

22.6694 

92.1475 

2.9491 

23.8938 

3 

7.8525 

100.0000 

3.7718 

27.6656 


输出 1 L 2. 2给出模型效应的权重 U = l ,2,3) 和因变量的 
权重奶 a = l ，2,3). 比如々=1时可得出乃和 R 为 

r T A = w , l = — 0. 5985 weight * — 0. 7826 waist * +0. 2423 pulse * ， 


U \= v \ Y = Q . 6133 chins * +0. 7470 situps * +0. 2567 jumps *. 

输出 11. 2. 2 模型效应和因变置的权重 


Hodel Effect Ueights 


^nber of 
Extracted 
Factors 


weight 

-0.59B4B4 

0.5B4054 

0.6574B9 


-0.702550 

-0.707666 

-0.2870S8 


0.242348 

-0.842793 

0.696658 


Inner 

Regression 

Coefficients 

0.5490SI 

0.360681 

0.693060 


Dependent Variable Ueights 


Factors 

chins 

situps 

junps 

1 

0.613307 

0.746972 

0.256685 

2 

0.748517 

0.647049 

0.145086 

3 

0.688603 

0.657104 

-0.306659 


输出 11.2.3 

模型效应的负荷置 



Model Effect Loadings 


Number of 




Extracted 




Factors 

weight 

waist 

pulse 

1 

-0.656377 

-0.666340 

0.3S3780 

2 

-0.015877 

-0.284692 

-0.958488 

3 

0.657469 

-0.287058 

0.696658 


输出 11. 2. 3 给出模型效应的负荷量办 (A = l ，2,3) •例如 
= (- 0. 656377, 一 0. 666340,0. 353780)， 

是生理指标变量 weight * , waist * 和 pulse * 关于的回归系数. 

因没有指定抽取成分(即偏最小二乘因子）的个数，以上只给出 
所有可能成分 r =3 的结果.这时所得到的偏最小二乘回归方程就是 
最小二乘准则下多对多线性回归方程（省略了）.如果指定抽取成分 
的个数为2,所得到的偏最小二乘回归方程见输出 11. 2. 4. 

由输出 11. 2. 4可得出因变量 situps 的标准化回归方程(右上角 
带“ * ”的变量表示标准化变量)及还原为原始变量的回归方程分别 
为： 

situps * = — 0. 1385 weight " — 0. 5244 waist * 一 0. 0854 pulse * ， 
situps = 612. 5671 — 0. 3509 weight —10. 2477 waist ~0. 7412 pulse . 
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经进一步计算可知，回归方程是显著的 <^ = 0. 0155 C 0. 05)，决定系 
数尺 2 = 0. 3876. 回归方程中 weight 和 waist 系数的符号皆为负，这 
是合乎实际意义的.我们还可以用 REG 过程(在 MODEL 语句后加 
选项 R ) 得出由“舍一交叉验证方法”而得到的预测残差平 方和： 
PRESS =17.14692( 这里没有显示). 


输出 11. 2. 4抽取成分个数为2时偏最小二乘回归方程的参数估计 


Parameter Estimates for 

Centered and Scaled 

Data 


chins 

situps 

jumps 

Intercept 

weight 

waist 

pulse 

0.0000000000 
-.0777704452 
-.498928157S 
-.1321877334 

0.0000000000 

-.1384668393 

-.5244458437 

-.0854203022 

0.0000000000 

-.0603559018 

-.1559181910 

-.0072854215 


Parameter 

Estimates 



chins 

si tups 

junps 

Intercept 

weight 

waist 

pulse 

47.0197329 

-0.0166508 

-0.8237024 

-0.0969133 

612.5671220 

•0.3508797 

-10.2476753 

-0.7412177 

183.9848928 

-0.1253477 

-2.4969262 

-0.0518112 


输出 11. 2. S 用交叉验证法确定抽取成分的个数为1 


Cross Validation for the 

Number of Extracted Factors 

Number of 

Root 


Extracted 

Mean 


Factors 

PRESS 


0 

1.052632 


1 

0.996829 


2 

1.046888 


3 

1.075091 


Mininun root mean PRESS 

0.9968 

Mininizing number of factors 

1 


如果在 PLS 过程中要求使用“舍一交叉验证方法”进行交叉验 
证，并确定抽取成分(即偏最小二乘因子)的个数.计算结果是当抽取 
一个偏最小二乘因子时，得到的预测残差平方和的均方达最小(见输 
出 11 . 2 . 5)，其最小值为 0 . 9968. 

当使用其他交叉验证方法时确定的因子个数也均为 1. 当抽取 
因子的个数为1时，得到的偏最小二乘回归方程的参数估计见输出 



11 . 2 . 6 . 
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输出 11. 2. 6因子个数为1时偏最小二乘回归方程的参数估计 


Par an 

leter Estimates for 

Center-ed and Scaled 

Data 

Intercept 

weight 

waist 

pulse 

chins 

s i tups 

Jumps 

0.0000000000 
-.2015249745 
••26351367S4 
0.0816076463 

0.0000000000 

-.2454453490 

-.3209438740 

0.0393932254 

0.0000000000 

-.0843434721 

-.1102873645 

0.0341549342 


Paraweter Estimates 



ch ins 

si tups 

jumps 

Intercept 

weight 

waist 

1 pulse 

29.2001686 

-0.0431468 

-0.4350463 

0.0598306 

430.2510765 
-0.6219668 
-B.2712454 
0.8624650 

150.4807263 

-0.1751653 

-1.7661788 

0.2428971 


由杨出 11. 2. 6可得出因变量 situps 的标准化回归方程(右上角 

带“ * ’’的变量表示标准化变量)及还原为原始变量的回归方程分别 
为： 


situps * =- 0. 2454 weight * — o . 3209 waist * + 0. 0994 pulse * , 
situps =430. 2511 — 0. 6220 weight - 6. 2712 waist 
+ 0. 8625 pulse . 

经进一步计算可知，回归方程是显著的 = 0059<0 _ 05) ，决定系 

数 R 2 = 0. 3506. 回归方程中 weight 和 waist 系数的符号皆为负的， 

这合乎实际意义.使用“舍一交叉验证方法，，而得到的预测残差平方 
和 


—W \J yj Li 


' I-i. x • I y • 

另两个因变量的回归方程这里省略•输出 1 L 2 . 7 给出在 REG 

输出 11.2.7 当抽取成分个数为1时因变量 SITUPS 
的预测残差平方和 PRESS 


The REG Procedure 

氏 — . Model : nfarl 

Dependent Variable: situps 仰 g ) •起坐 


Sun of Residuals 

Sum of Squared Residuals 

Predicted Residual SS (PRESS) 


0 

12.33873 

14.99532 
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经进一步计算可知，回归方程是显著的（/> = 0.0155<0. 05)，决定系 
数 R 2 = 0. 3876. 回归方程中 weight 和 waist 系数的符号皆为负，这 
是合乎实际意义的.我们还可以用 REG 过程(在 MODEL 语句后加 
选项 R ) 得出由“舍一交叉验证方法”而得到的预测残差平方和: 
PRESS =17.14692( 这里没有显示）. 


输出 11. 2. 4抽取成分个数为2时偏«小二乘回归方程的参数估计 


Parameter Estimates for 

Centered and Scaled 

Data 


ch ins 

si tups 

junps 

Intercept 
we ight 
waist 
pulse 

0.0000000000 

-.0777704452 

-.4989281575 

-.1321877334 

0.0000000000 

-.1384668393 

-.5244458437 

-.0854203022 

0.0000000000 

-.0603559018 

-.1559181910 

-.0072854215 


Paraneter 

Estimates 



chins 

si tups 

junps 

Intercept 
wo ight 
waist 
pulse 

47.0197329 

-0.0166508 

-0.8237024 

-0.0969133 

612.5671220 

■0.3508797 

-10.2476753 

-0.7412177 

183.9848928 

-0.1253477 

-2.49892B2 

-0.0518112 


输出 11. 2. S 用交叉验证法确定抽取成分的个数为1 


Cross Validation for the 

Number of Extracted Factors 

Number of 

Root 


Extracted 

Mean 


Factors 

PRESS 


0 

1.052632 


1 

0.996829 


2 

1.046888 


3 

1.075091 


flininum root mean PRESS 

0.9968 

11 in in iz ing number of factors 

1 


如果在 PLS 过程中要求使用“舍一交叉验证方法”进行交叉验 
证，并确定抽取成分(即偏最小二乘因子)的个数.计算结果是当抽取 
一个偏最小二乘因子时，得到的预测残差平方和的均方达最小(见输 
m 11.2. 5) ，其最小值为 0. 9968. 

当使用其他交叉验证方法时确定的因子个数也均为 1. 当抽取 
因子的个数为1时，得到的偏最小二乘回归方程的参数估计见输出 
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11 . 2 . 6 . 


输出 11. 2. 6因子个數为1时偏最小二乘回归方程的参数估计 


raneter Estimates for Centered 


Scaled Data 


Intercept 

weight 

waist 

pulse 

chins 

0.0000000000 

-.2015249745 

-.2635136754 

0.0816076463 

si tups 

0.0000000000 

-.2454453490 

-.3209438740 

0.09939322S4 

Jumps 

0.0000000000 

-.0843434721 

-.1102873645 

0.0341B49342 


Paraneter 

Estinates 



ch ins 

si tups 

jumps 

Intercept 

weight 

waist 

pulse 

29.2001686 

-0.0431468 

-0.4350463 

0.0598306 

430.2510765 

-0.6219668 

-6.2712454 

0.8624650 

150.4807263 

-0.1751653 

-1.7661788 

0.2428971 


由输岀 11. 2. 6 可得出因变量 situps 的标准化回归方程(右上角 
带“ * ”的变量表示标准化变量)及还原为原始变量的回归方程分别 
为： 

situps * = — 0. 2454 weight * — 0. 3209 waist * + 0. 0994 pulse * ， 
situps =430. 2511 — 0. 6220 weight — 6. 2712 waist 
+ 0. 8625 pulse . 

经进一步计算可知，回归方程是显著的 (/) = 0. 0059<0. 05)，决定系 
数 i ? 2 = 0. 3506. 回归方程中 weight 和 waist 系数的符号皆为负的, 
这合乎实际意义.使用“舍一交叉验证方法”而得到的预测残差平方 
和 

PRESS =14. 99592 (见输出 11. 2. 7). 

另两个因变量的回归方程这里省略.输出 11. 2. 7给出在 REG 


输出 11. 2. 7当抽取成分个数为1时 因变董 SITUPS 
的预澜残差平方和 PRESS 













378 第 H - —幸偏最小二乘回归分析 


习題 + — 379 


过程中使用选项 R 得到的关于 PRESS 的结果. 

表 11.1 给出了对三个因变量关于几种建模方法的预测残差平 
方和 PRESS 值的比较，这几种建模方 法为： 经典的多元线性回归方 
法 ( MLR ), 主成分个数为1或2时的主成分回归方法 ( PCR ( l ) 或 
PCR (2))， 以及偏最小二乘因子个数为1或2时的偏最小二乘回归 
方法 ( PLS ( l ) 或 PLS (2)). 


表 11. 1对三个因变置比较几种建模方法的 PRESS 值 



MLR 

PCR(l) 

PCR(2) 

PLS ⑴ 

PLS(2) 

chins 

19.2108 

18.7536 

20.1552 

17. 6540 

19.3307 

situps 

19. 4546 

15. 4981 

17.0632 

14. 9959 

17.1469 

jumps 

27. 2164 

21.8387 

23.6942 

21.8714 

23.2857 


从表 11. 1明显可以看出，当抽取偏最小二乘因子(成分)的个数 
为1时所建立的偏最小二乘回归方程（见输出 11. 2. 6) 的预测残差 
平方和 PRESS 比其他几个方法都小.此例中两个变量组的个数都 
不多，多重相关性也不是特别严重， PLS 方法的优点在这里还没有 
更充分地显示出来. 

有关 SAS / STAT 软件中 PLS 过程的用法及其全面的功能请参 
考 SAS 系统 (8 版本)有关 PLS 过程的帮助系统，其中的应用例子更 
能说明偏最小二乘回归方法的特点 • 

习题十一 

11-1( 化工试验例子）考察的指标（因变量)7表示原辛烷值， 
自变量 A 表示直接蒸馏成分， x 2 表示重整汽油， x 3 表示原油热裂 
化油，： e 4 表示原油催化裂化油， ar 5 表示聚合物，表示烷基化物， 
表示天然香精 • 7个变量表示7个成分含量的比例（满足 x t + x 2 
+… + x 7 = l ) .表 11. 2给出12种混合物中7种成分和 Y 的数据.试 
用偏最小二乘方法建立 r 与而，: c 2 ，…，: c 7 的回归方程，用于确定7 
种构成元素，工2,…，工7对 Y " 的影响 • 


表 11. 2化工试验的原始数据 


序号 

x\ 

xz 

X3 

Xk 

工 5 

^6 

X7 

Y 

1 

0. 00 

0. 23 

0. 00 

0. 00 

0. 00 

0. 74 

0.03 

98. 7 

2 

0.00 

0.10 

0. 00 

0. 00 

0.12 

0.74 

0. 04 

97. 8 

3 

0.00 

0. 00 

0. 00 

0.10 

0.12 

0. 74 

0. 04 

96. 6 

4 

0.00 

0. 49 

0. 00 

0.00 

0.12 

0.37 

0. 02 

92.0 

5 

0.00 

0. 00 

0.00 

0. 62 

0.12 

0. 18 

0.08 

86. 6 

6 

0. 00 

0. 62 

0. 00 

0. 00 

0.00 

0. 37 

0.01 

91.2 

7 

0. 17 

0. 27 

0.10 

0. 38 

0. 00 


0. 08 

81.9 

8 

0. 17 

0.19 

0.10 

0.38 

0. 02 


0. 08 

83. 1 

9 

0.17 

0.21 

0.10 

0.38 

0. 00 


0.08 

82.4 

10 

0. 17 

0. 15 

0.10 

0. 38 

0. 02 

0. 10 

0. 08 

83.2 

11 

0.21 

0. 36 

0.12 

0. 25 

0. 00 


0.06 

81.4 

12 

0. 00 

0.00 

0. 00 

0.55 

0. 00 

0. 37 

0.08 

88. 1 


11-2 试对第十章表 10. 4的38名学生的体质和运动能力数 
据，用偏最小二乘法建立5个运动能力指标与7个体质变量的回归 
方程. 
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附录矩阵代数 


矩阵和行列式是多元统计分析的重要工具，本附录对书中需要用到的有关 
矩阵代数知识作一简单的回顾和介绍，熟悉这些内容对阅读本书将带来很大方 
便.如果读者希望对这方面知识有更多、更详细的了解，可参考有关的教科书. 


§1 向量与长度 


一、 向置的定义及几何意义 


由? * 个实数力，:^，…， or n 组成的一个数组称为 w 维向量，记为 


X = 


工1 
工2 


X n 


或 x = jx n y . 


n 维向量在几何上可表示为一个有方向的线段.向量可以进行数乘和加法 
运算.向量通过乘一个常数 c 来实现伸长或缩短.如向量 7 = ^=(^，cx 2 ，…， 
cx n y (<： 为常数），当 c>i 时，向量 y 是由 x 沿正方向伸长为原来的 c 倍得到 
的； 当 o<c<i, 向量 y 是由 x 沿正方向缩短为原来的(:倍得 到的； 当 c<o 时向 
量 y 是由 A： 沿反方向伸长或缩短为原来的 c 倍得到的. 

两向量 x =( x l 9 x 2 9 ••• y= (yi，％， … ，％)'的和为 



■ 工 i ■ 


'^1 ** 


_ 工 1 

-hyi~ 

x + y = 

工 2 

+ 

yi 

= 

工 2 

+ yz 


- X n - 


-yn - 


- 工 n 

+ «y” - 


二、向置的长度和两向置间的夹角 

向量(X〗，: r 2 ，…^的长度记为 Lx， 其定义为 


尤 ; f = " s /^ x \ x \ -••• + x \. 

若令 y = cX ， 则 Ly = z ^= Mix •取 c = i / z ^， 则得到长度为1 且与 x 同方向的 
单位向量 ysLpX . 

下面我们来考虑两个向量 x 和 y 之间的夹角久当时，若记向量 
CrhAY 和 y =(： yi ，： y 2 )'， 它们与横坐标的夹角分别为的和则两向量之间的 
夹角为 ft , 而且 〜 

cos 沒 = cos (^2 —沒 1 ) = cos (沒 2 )cos (巧）+ sin (仏 ) sin (的) 

= £l 1 ^2 £2 = + X 2 y 2 

L y Lx Ly Lx LxLy 

推广到 《 维向量也有相似的 定义. 如果引入两个 w 维向量 X 和 y 间的内积 
( XD ， 其定义为 

(X,y) = X'Y = Y'X = x x y x 4 - X z y z + — -|- x n y n> 

则 《 维向量 x 的长度以及两个向量 x 和 y 的夹角#都可以用内积来表 
示： 


Lx = VFx, 

cos^= 砂 + …+ 工”; y ” ^ _ x f Y 

LxLy Vx ^ xVty ' 

当 :rr=ofl 寸， cos 沒=0,所以我们说，当 ；ry=o 时向量 x 与 y 相互垂直. 

三、向董的线性相关与线性无关 

一组;1维向 量不， x 2 , …不，如果存在不全为零的常数 Cl ， C2 ，…，^，使 

c i^i + c 2 X 2 + …+ CpXp = 0, 

则称这组向量线性相关.线性相关意昧着这组向量中至少有一个向量能写成其 
余向量的线性组合.如果一组„维向量不线性相关，就称它们线性无关 • 


四、向置 x 在向置 y 上的投彩 

设 X = ( X , ，; r 2 ，… , x n y , 7=(3-! ，％，...，>)’，向量 X 在向量 y 上的投影为 

其中单位向量表示 A ■在 y 上投影的方向.而向量 X 在向量 y 上投影的长 
度即为 


\X'Y\ . X'Y 

Ly =Lx Ljr r 


= Lx \ cos 汐 I ， 
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其中 e 是两个向量 x 和 y 之间的夹角. 

§ 2 矩阵及基本运算 

一、 矩阵的定义 

将 户 Xg 个实数 a „， a 12 ，…,排列成一个如以下形式的/>行、？列的长方 
形表： 

a ll a 12 … a \q 

021 a 22 ••• a 2 <l 

A= • ， 

: : : 

- a p\ a P^ …- 

称 4 为/ » Xg 矩阵，常记作 A =( ai > ), x ,， 其中％是第 >' 行、第•/列的元素•本书 
中％ 均为实数. 

若9=1,则称4为户维列向量，记作 W 当/>维列向量的所有元素均为1 
时，常记为1, : 



' a\~ 


_ 1 " 

a = 

a-i 

， !/• = 

1 


-dp— 


- 1 - 


若/> = 1，则称 A 为9维行向量，记作 

a 1 = (fl"a 2 , … ,a 9 ). 

若4的所有元素全为零，则称 A 为零矩阵，记作4=0^，或 A =0_ 若 A 

的所有元素全为1，常记该矩阵为 •/, 显然 

若/> = 9,则称 A 为/>阶方阵， a n ， a 22 ，... ，心；■称为它的对角线兀素，其他兀 
素 a , 7 G •关 )) 称为非对角线元素. 

若方阵 A 的对角线下方的元素全为零，则称4为上三角矩阵 •显然 ，叫= 

0, i > j . 

若方阵 A 的对角线上方的元素全为零，则称4为下三角矩阵.显然，<2 0 .= 

0, i < j . 

若方阵4的所有非对角线元素均为零，则称4为对角矩阵，简记为4 = 
diag(a n ,a 22 »— ， a pp ). 

若 p 阶对角矩阵 A 的所有/>个对角线元素均为1，则称 A 为 p 阶单位矩 


阵，记作4=7；■或 4=/. 

若将矩阵 A 的行与列互换，则得到的矩阵称为4的转置，记作 A ' ,即 
a n a 2 , ― a pl 

, a 12 a 22 *** a p2 

•A’ = . • • • 

J 2 ^ a 2, — qxp 

若 A 是方阵，且 A ' = A , 则称 A 为对称 矩阵. 显然化 = 心. 

若 A 是方阵，且 = 则称 A 为斜对称 矩阵. 显然知= 0, a ij =- a ji 

二、 矩阵的运算 

若 A = U ,+ y ) 为矩阵，£=(~)为/矩阵，则 A 与 B 的和定义为 
A + B — ( a f> + 6, P , x »- 
若 c 为一常数,则它与 A 的积定义为 

cA = ( ca , j ) pXt . 

若4= ( a , v ) 为/ > X 9 矩阵，为 gXr 矩阵，则4与 B 的积定义为 

AB =[ 2 . 

' *-1 7 

从上述定义中容易得出如下的运算 规律： 

(1) CA+BY^A'+B'. 

(2) {ABY=B'A'. 

(3) A(B i +B 2 )=AB t +AB 2 . 

(4) 2 凡 j = S AB - 

a=l «*1 

(5) c(A-\-B)=cA-\-cB. 

p 

若 p 阶方阵 A 满足则称 A 为正交矩阵.显然， E 4 = i (〖=1，2, 

>=i 

称 4 的/ ■个 行向量为单位向量； i>,+Ay = 0 称 A 的/>个行向 

>=1 

P ^ 

量两两相互正交.又从 得： () =1 ，…，户 ）， ij ^ 

,=i *=1 

« ，即 A 的/ > 个列向量也是一组相互正交的单位 向量. 例如，以下三个矩阵都是 
正 交阵： 
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.0 - 1 . 


W VT 
2 2 

2 2 - 


1 1 1 

VT 


l - 1 

V 2 •1 V 2 • 1 


L 2 2 」 1 1 — 2 

- V 3 • 2 V ? • 2 V3 • 2 - 

若方阵 Z 满足 A 2 = A ， 则称 A 为幂等矩阵.例如， 

、 0"| 「11*] [ 1/2 1/2" 

-0 1」’ L 。 0」’ Ll/2 1/2 / 

对称的幂等矩阵称为投影矩阵. 

矩阵的分块是在处理阶数较高的矩阵时常用的方法.有时，我们把一个高 
阶矩阵看成是由一些低阶矩阵组成的，就像矩阵是由数值组成的 一样设 
Z =( a lV ) 为 P Xq 矩阵，将它剖分成四块，表示成 


其中 A 为 A X /矩阵，乂 12 为走 XQ -/) 矩阵，4 21 为（户一走） X /矩阵， A 22 为 
(/»—幻 X ( g _/) 矩阵.分块矩阵也满足一般矩阵的加法、乘法等运算规律. 

若 Z 和 B 有相同的分块，则 

^ + 石 — "^11 + 五 11 4l2 + 丑 12 

--^21 H~ B 2 \ A 2 2 + B 2 2 . 

若 C 为 gXr 矩阵,剖分成 

C\\ C\2 

c = , 

_ C21 C22 」 

其中 Cn 为 IXm 矩阵， C ' 2 为 / X(r — m ) 矩阵， C 2 i 为 (g —/) Xm 矩矩， C22 为 
( q — l ) X ( r 一 m ) 矩阵，则有 

^ 11 ^121 [" Cn C 12 

. -^21 -^22 J L C *21 C22 - 

_ Kn + A12O21 X11C12 + -^ 12^22 

m A 2 jCn -[■ A22C21 A21C12 + ^ 22^22 . 


3 行列式 


户阶方阵 4=(%) 的行列式定义为 
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1^1= S (— I )，、、％，、， 

VV 、 

这里 [ 表示对1,2,…，/>的所有排列求和， r ( b 2 .“),) 是排列 j t , j 2 ，-, j p 
> lk "' ip 

中逆序的总数，称它为这个排列的逆序数.一个逆序是指在一个排列中一对数 
的前后位置与大小顺序相反，即前面的数大于后面的数.例如， r (3, 1,4, 2) = 3. 
由行列式的定义可以得到如下的一些基本 性质： 

性质1若 A 的某行(或列）为零，则 M |=0. 

性质2 \ A '\=\ A \. 

性质3若将4的某一行（或列）乘以常数 c , 则所得矩阵的行列式为 
c |A I . 

性质 4 若 A 是一个/>阶方阵，^为一常数.则 M |= dA |. 

性质 S 若互换4的任意两行(或列），则行列式符号改变. 

性质6若 A 的某两行(或列)相同，则行列式为零. 

性质7若将4的某一行(或列）的倍数加到另一行(或列）,则所得行列式 
不变. 

性质8若4的某一行(或列)是其他一些行(或列）的线性组合，则行列式 
为零. 

性质9若/>阶方阵 A 为上三角矩阵或下三角矩阵或对角矩阵，则 I = 

f 

U a "* 

1=1 

性质10若 A 和 S 均为/»阶方阵，则 | AS |= M || B |. 

性质11因 AA ' 为非负定矩阵，故有 

■AC A O 

性质 12 若 A 与 B 都是方阵，则 = =|^|| B |. 

O B C B 

性质13 若 A 为 / • Xg 矩阵， B 为 gX /> 矩阵，则10+4^1= | J ? +_ R 4|. 

证明因为 

If A Ip — A Ip + AB 0 

.0 J, 」 Lb A 」一 L B /,」’ 

Ip 0 Ip — A I p — A 
B I , 」一 Lo /,+ B 4」’ 

将上述两个等式的两边各取行列式，故得 

\ I P + AB \ = \1„ + BA \. (证毕） 

例如 ，若; c ，： y 为两个维向量，则 

\ I P + xy ' 1 = 1 + y ' x . 
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设 A 为/>阶方阵，将其元素叫所在的第 i 行与第 j 列划去所得(/ > — 1) 阶 
矩阵的行列式，称为元素％的子式，记为 M, v . A,,= (-l) ,+y M 0 称为元素％的 
代数余子式.有以下公式成立 

p p 

1川= 2 a^Aij = ^a^Aij, 

j=i »-] 

p p 

= o ^a ik Aij = Q (k 尹 j). 

j 两 i «=i 

例如，若 

"6 5 10 1* 

7 10 7 6 

A = 

^ 9 8 12 2 

-4 9 11 3 - 

则其代数余子式为 A 32 = ( — 1) 3+2 M 32 =- m 32 . 



6 

10 

1 

» a zz 的子式为 M32 = 

7 

7 

6 


4 

11 

3 


§4 逆矩阵、矩阵的秩及分块求逆 


_、逆矩阵 

若方阵 A 满足|4|#0,则称 A 为非退化方阵或非奇异 方阵; 若 Ml =0,则 
称 d 为退化方阵.若4= (a,,) 是一非退化方阵，令 

B' = CAj)/\A\, 

其中瓜是％的代数余子式，则有称 B 为 Z 的逆，记作 B=A '. 
由于 |B| =1/41关0,所以 B 也是一个非退化方阵.若方阵 C 满足 AC = h 则 
同样,若方阵 D 满足 ZM=/ ，则 D=DAB=^B. 因此， 1 是唯一 
的，且 G4 _1 ) _1 =i4. 

逆矩阵具有如下的基本 性质： 

性质 1 AA-' = A~ l A=I. 

性质 2 (AT' = (.A~'y. 

性质 3 若 A 和(：均为 p 阶非退化方阵，则 
性质 4 \A~ 1 \=\A\~ l . 

性质 5 若 乂是正 交矩阵，则 4^ = 4. 

性质6若 AsdiagG，!，％， …，非退化（即 a, v ^0,i = l ,2,…，/>)，则 
A'^diagCan' ,0^2 ，心 ）• 



§ 4 逆矩阵、矩阵的秩及分块求逆 387 


性质 7 若 A 和 B 为非退化方阵，则 


~ A 



■A- 1 0 _ 

.O 

B ： 


- O B~\ 


二、矩阵的秩 


设 A 为 fiXq 矩阵,若存在4的一个 r 阶子方阵的行列式不为零，而4的 
一切 (r+1) 阶子方阵的行列式均为零，则称 4 的秩为 r, 记作 rank(A)=r. 

矩阵的秩具有下述基本 性质： 

性质 1 rank04) = 0, 当且仅当 A =O fX ,. 

性质 2若4为 />Xg 矩阵，且 A#CVx«， 则 l<rank(A)<min{/>，9}. 


性质 3 rank(A)=rank(A'). 

性质 4 若 A 为 pX 9 矩阵, S 为/ > Xt •矩阵，则 
max{rank04) ， rank(B)} < rankCA j B) < min{/>,rank(^4) + rank(B)}. 


性质 S 


rank 


A O 
O B] 


= rank 


0 A 
IB OJ 


=rank (A ) + rank (B ) • 


性质 6 rank(AB)^min{rank(i4) ,rank(B)}. 


性质 7 rank(A+5Xrank(A)+rank(B). 

性质 8 若 A 和 C 为非退化方阵，则 rank (ABC ) = rank (B ). 

性质 9 /> 阶方阵 A 是非退化的，当且仅当 rankG4) = /> •当/>阶方阵的秩 
为/>时，称 A 是满秩的矩阵 • 


三、 非奇异矩阵的分块矩阵求逆 


设 A 是/>阶满秩矩阵,它的逆矩阵为 A"* 1 , 它们可表示为下列分块矩阵: 


A = 


~A n : A l2 

： -^22" 


'A 11 

1 a 12 ~ 

■A 21 

A 22 . 


其中 4 n , A 11 均为 rXr 矩阵， 4 22 和 4 22 均为 sXs 矩阵，且 r+s = p. 
若 All 满秩，记义 22 • 1 —A.22 _ ^12' 

若义 22 满秩，记 "^11 . 2 = -^11 _ A\2A 2 i A Z \» 

定理 4.1 如果 A 和非奇异，则 


"A 11 


+ A^A n A n \A n A^ 1 ; - 

.A 21 i^ 2Z . 


- _ Ai2'\^2\^-\\ -^22-1 


如果 A 和 A 22 非奇异，则 


A 11 

A 12 ' 

= 

^n： 2 


A 21 

A 22 . 

- — ^-22 

A 22 "i - ^22 1 -^21^11 *2^12-^22 
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证明 仅证 (4.1) 式 ，（4. 2) 式可类似证明. 
由于 Zu 1 存在,容易验证下式 成立： 


• 

o _ 

"^11 

•^12 

• I r 

- < A 12 - 

-— A 2 \ A ^ 

h - 

- 义21 

^22 - 

. 0 

Is - 


_ ' A „ ; o - 

. O : A 2 2 — A 2 \ A n ' A 12 _ 

由于 = • |本 2 . 1 |#0，知|4. 1 |#0，于是知 1 . 1 存在,上式两边求逆并 

作适当变换得到： 


'A n 

lA 12 ' 


：- ^n'^.2 i 

「V 

： 0 ■ 

- lr \0' 


U 22 - 


.0 1 

Is 」 

- o 

! 知:】 J 



将其展开后即得 (4.1) 式. 

如果4„,4 22 都非奇异，则有 

+ A~ l Ai2A ； 2 \A 2l A-' , 

+ A^AnA^AuA^ 1 . 

另外还有 

4 " = 4 : 2 ， A 22 = A^, 

# =- a ; i ] 2 a u a ; 2 1 =- yi -% 2 A 2 - 2 ! 1( 
a 21 =- a ; 2 > . 1 a 21 a - 1 =- atM ^) z . 

关于非奇异矩阵的行列式则有以下两个结论. 

推论 4.1 如果 A u ，4 22 非奇异，则 

1-^4 I = 1-^11 I 1^22-1 I — 1-^22 I l-All-2 I - 
推论 4.2 设 A 是户 Xg 矩阵， B 是 ？ X /> 矩阵， A 尹0,那么 
\ X 1 P - AB \ = X p ~ q \ Xl t - BA \. 

证明 利用推论 4.1 可知 


n P 

A \ 


i 

B 

V 

= l ^/.| 



^ A = \hm P -AB\ = 


A p - 9 | A /, - BA \, 
\ XI f - AB \. 


推论 4. 3 设 A 是/ > Xg 矩阵， B 是 gX 户矩阵，那么 
\ I P + AB \ = \ l q + BA \. 

证明 只须在推论 4.2 中令 A = l , Z 用一 A 代替即可. 
关于涉及矩阵的和的求逆问题下列定理是十分有用的. 


(证毕) 

(4.3) 
(4. 4) 


(4. 5) 


(证毕) 


(证毕) 


5特征值、特征向量和矩阵的迹 


定理 4. 2 设尸为/■阶非奇异矩阵， 1/ 为/ >Xg 矩阵， ■^为 gX /> 矩阵，而户 
阶方阵 Q = P + t / V 和9阶方阵 I ,+ VP~ l U 也非奇异，则 
Q _'= (P + UV )- 1 

= p~ l - p^ua + vp ~ l uy ' vp ~\ 

'p -ul 


证明令4= 


Lv i , J 


，利用前面的记号，只须将 


(4. 6) 


A n . 2 = P + UV , A 22 „ = I + VP -' U , 

An — P , A 2 2 = A I2 = — U , A 21 = V 
代入 (4. 3) 式即可得证. （证毕） 

例如，若 a ： 和: v 分别为/ ■维 向量， P 是/>阶方阵，且满足定理 4. 2,则有 
(P + xyT ' = P -' - (1 + y ' P -^ r ' P ^ xy ' P - 1 . 


§5特征值、特征向量和矩阵的迹 

一、 特征值和特征向置 

设4是/>阶方阵，则方程 |A — A 7 f | = 0 的左边是 A 的/>次多 项式. 由多项 
式理论知道，该方程有/>个根(可能有重根)•虽然 A 是实数矩阵，但方程的根 
可能为实数,也可能为复数，记作 々，并 称为 A 的特征值或特征根. 

另一方面，若 A ,_ 是方程 14— A /,1^0 的一个根，则 Ol — AJV ) 为退化矩阵， 
故存在一个/>维非零向量使得 

(A — Xilp)Xi = 0, 

即 A , 是 A 的一个特征值，而 A 称为相应的特征向量.今后 ，一 般取右 为单位向 
量，即满足 XiXi =\. 

特征值和特征向量具有下述基本 性质： 

性质 1 A 和 W 有相同的特征值. 

性质 2若 A 和 S 分别是 />><■? 和 9 X /> 矩阵，则和凡4有相同的非零 
特征值. 

证明 因为 



- A ' 

■ A /, 

A ' 


~ XIAB 0 ■ 

• o 

峋- 

■ B 



_ \B A / 9 . 


- Ip o ' 

'^p 

A ' 


• A 

XI q . 

■ B 



O A 7 g — BA _ 
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所以 


XI P — AB O 


U p A 

AB XI q 


O A / 9 - BA 


A ? |A/, — AB\ = - BA\. 

可见，两个关于 A 的方程 IA7，一AB| =0 和|从一 _BA| =0 有着完全相同的非零 
根(若有重根，则它们的重数也相同），故而4£和£4有相同的非零特征值. 

(证毕） 

性质3若4为实对称矩阵，则/I的特征值全为实数，/>个特征值按大小 
依次表示为…若人关/^则相应的特征向量二和心必正交 ， BP 

XiXj = 0, 

性质4若 i4 = diagU„，a 22 ，… ，〜） ，则〜 ，a 22 ，…〜为 A 的/>个特征值， 
相应的特征向量分别为 

A = (1 ， 0,… ， 0)’ ，之 2= (0 ， 1 ， 0,… ， 0)’ ， …， 《/>= (0,… ， 0, ]_)’• 

性质 S 丨=]^ A, ,即 A 的行列式等于其特征值的乘积.因此， A 为非退 

r = l 

化矩阵，当且仅当4的特征值均不 为零； A 为退化矩阵，当且仅当4至少有一 
个特征值为零. 

性质6 若 A % p 阶对称矩阵，则存在正交矩阵 r 及对角矩阵4 = 
diag(A ,, A 2 ,-，A,) ,将 r 按列向量分块，并记作厂= ，1 2 ，… ，心） ，矩阵4即有如 

下分解 形式： ，并称此分解为4的谱分解. 

证明事实上，由于4是对称矩阵，则有 

a = rAr . (5.1) 

将等式 ( 5 .1) 两边右乘 r, 得 4r=rvi, 于是有 

Pi 1 

A 2 0 

- 0 ' V 

i_Al\ J Ally m9 * y Alp) = ( 义 1,1 ，义 2,2 ， … ，又 〆 声）， 

故 Al, = Xili (i = 1,2,…， />). 

这表明 A,，A 2 ，…冰是义的 />个特征值，而 / lt / 2 ，…，&为相应的特征向量.由于 
r 是正交矩阵，所以相应的特征向量^义，…，&是正交单位特征向量 .又上述 
矩阵4可作如下 分解： 
a = rAr 
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(/”々，…，心） 




Lo 


又2 


A^J 


1 




(证毕） 


二、矩阵的迹 

设 A 为/>阶方阵，则它的对角线元素之和称为 A 的迹，记作 tr ( A ) ，即 

tr ( i 4) =<2^+022 +•••+〜. 

方阵的迹具有下述基本 性质： 

性质1若，七 ，…， 为 A 的特征值，则 
性质2 tr ( AB ) — tr ( BA ). 

性质3 tr (^4)= tr ( D . 

性质4 tr ( A +5)= tr ( A )+ tr ( B ). 

性质 S tr ( = ^ tr (, A a ). 

a=l «—1 

性质 6 若 A 为投影矩阵，则 trU ) = rank ( A ). 

证明由于4 = 4,所以存在正交矩阵7 1 和对角矩阵 A ^ diagU , ，々，•••， 
A ,) ，使得 A = rAr ，由§ 4矩阵秩的性质8知 

rank ( A ) = rank ( il ) =々，々，•••，& 中的非零个数. 

又由于幂等矩阵的特征值或为0或为1,即 

A , = 0或 1 (*• = 1，2,…， />) ， 

故而 

tr ( A )= 七+ A 2 +…+ A ， = ，七 ，…，々中1的个数 

= rank ( A ). (证毕) 


§6正定矩阵、非负定矩阵和投影矩阵 

设4是/>阶对称矩阵，X是一个维向量，则 y Ar 称为 A 的二 次型. 若对 
一切 T 关0,有 ^ Ar>0, 则称 A 为正定矩阵，记作4>0;若对一切 z 尹0,有 
YAiX)， 则称4为非负定矩阵，记作 A ^ O . A>B 表示 A ~ B >0； A>B 表示 
A - B ^ O . 
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一、 正定矩阵和非负定矩阵的基本性质 

性质 1 设 Z 是对称矩阵，则 A 是正定(或非负定)矩阵，当且仅当 4 的所 
有特征值均为正(或非负). 

证明必要性.由于 a 是对称矩阵，故存在一正交矩阵 r , 使得 
— diagdAz ， …， A *). 令 e ,.= ( 0 , …, 0 ， 1 ， 0 ,… , 0 )', 其中除第! • 个位置为 1 外，其 
余元素均为 0 ,于是 

A ,. = e'i Ae t — ( re . O ^ Cre ,). 

因为 r e ,. 关 0 ,所以当 4 > 0 时， A ,> 0 , 时， A t > 0 . 

充分性.对任意的 xfO , 令; y == r * x , 则 

p 

x ' Ax — x'rAVx = y ' Ay = ^ A , 3 ;?. 

i =] 

由于 : y ^ O , 即 ％ ty 2 t '" < y p 不全为零，所以当 A,>0 (i = 1 ， 2 ,…， />) 时， x ' Ax > 
0 ,从而 A > 0 ; 当入(:' = 1 ， 2 , …， />) 时， x ' Ar > 0 , 从而(证毕） 
性质 2 若 4 > 0 ,则' X ). 

性质 3 设 A > 0 , 则 A > 0 当且仅当 | A | 垆 0 . 

性质 4 S 及> 0 ,对一切矩阵 B 成立. 

性质 S 若 A > 0 ( 或> 0 )，则存在 4 1 / 2 > 0 (或彡 0 )，使得 4 = 4 1 / 2 4 1/2 , A 1/2 
称为 A 的平方根矩阵. 

证明因为 A 是对称矩阵，所以存在正交矩阵 r 和对角矩阵 A = diag ( A ,, 
…， A ,) 使得 A =/ Mr '. 由 4 > 0 (或 > 0 ) 可知， A ,> 0 ( 或 > 0 ) ( i = 1 , 4 - 
A 1/2 = diag (^ A "， 〜^"，…， 4 1/2 = rA U2 r , 

则有 

a = rA V 2 A V2 r - rA 1 /2 rrA 1/2 r = A xn A xn . 

由于 4 1 / 2 的特征值 VI7>0 (或 > 0 ) (i = l , 2 , …,户），所以 4 1/2 >0 (或 > 0 ). 

(证毕） 

性质 6 设 A > 0 是秩为 r 的阶方阵，则存在一个秩为 r 的/ > Xr 矩阵 B , 

使得 

A = BB '. 

证明因为所以存在正交矩阵 r 和对角矩阵 
A = diag ( A 1 , A 2 , — , A p ), 

使得 A = r ^ ir ，， 且 A 1 > A 2 >...> A ,> 0 .因 rankM ) = rank ( A )= r ，故知 
A > 七 > …> I > 々 +1 =…=^ = 0 . 

令 A ! = diag(Ai , A 2 , …， A r ) ，记 A[ /2 = diag (^ A7 、-、… ， V ^ T ) ，将厂的前 r 
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列组成的 pXr 矩阵记为 A ，厂的后 p~r 列组成的/ >X ( 户 一 r ) 矩阵记为 r 2 ，即 

r = (r, ： r 2 ). 

又记£ = .显然， B 是秩为/•的/ »Xr 矩阵，因此 





= r , A , r ； = r ^ l ^ Al ^ r ； = (1^| /2 )(/^1 /2 )，= bb '. (证毕) 
性质7若4>0，丑>0,4一5>0，则 B - LfX )， 且⑷ >| B |. 

性质 8若4>0,将4剖分为 


A = 



其中山,为方阵，则 

An 〉 0 ， A22 〉 0 ， Au . 2 = Au _ A12A2Z 1 Azi^O, An • 1 = A 22 — AziA.^ 1 


二、投影矩阵及其性质 

前面已给出 定义： 对称幂等矩阵就是投影矩阵.以下是投影矩阵的一些性 
质： 

性质 1 若 A 是投影矩阵，则 t r G4 )= ra nkG4 ). 

性质 2 若 A 是投影矩阵，则/一 4 也是投影矩阵 • 

性质 3 若 4 是秩为 r 的投影矩阵，则 A 有 r 个特征根为 1 ,其余为 0 . 故满 
秩的投影矩阵必为 /. 

性质 4 若 A 和 B 均为投影矩阵，且 4 +£=厂则 AB = B4 = 0 . 

性质 5 若矩阵，则尸 是投 

影矩阵，且 rank ( P i )=/>. 


§7特征值的极值问题 

本节介绍几个与特征值有关的极值问题. 

引理 7. 1 ( 柯西 - 施瓦茨 (Cauchy-Schwarz) 不等式） 设 6 和 d 是两个维 
向量，则 

(6'^) 2 < Wb^id'd), (7 - D 

上述等号当且仅当 6=cd ( 或时成立，这里 c 为常数. 
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证明 当6 = 0或 d = 0, 显然成立.不妨设6关关0,考虑向量 6— 这 
里工是一个变数，于是 

0< (A - xdy (b - xd ) = ( d ' d ) x 2 - { 2 b ' d)x + b ' b , (7.2) 
由^的二次函数性质知道此时 

(6 V ) 2 - ( b ' b ) Cd ' d ') < 0. 

即 （7. 1) 式成立. 

若山立即可知 （7. 1) 式等号 成立. 反之若 （7. 1) 式等号成立，则当取 
x = b ' dld'd 时 (7. 2) 式为0,从而存在常数，使得 

b = cd . (证毕） 

引理 7 . 2 (推广的柯西-施瓦茨不等式） 设是两个/>维向量， B 是 p 
阶正定矩阵,那么有 

( b ' d ) 2 < ( b ' Bb ) ( d ' B ~' d ), (7.3) 

且等号当且仅当或时成立，这里 c 为常数. 

证明由于 B 正定，记 J = B 1/2 6,5= B _1/ Z £/, 此时6与心与2同时为零 
向量或者非零向量，利用引理 7. 1于向量6和3,立即可得 (7. 3) 式. （证毕） 

定理 7.1 设 B 是 f 阶正定矩阵， d 为声维向量，对任意/>维向量 z 下式 
成立： 

，榮 = 心々， （ 7 . 4) 

且当 x = cB~'d 时达到最大值 d ' B-'d ( c #0 为常数). 

证明因为 B 是/>阶正定矩阵，由引理 7. 2知道，对任一/ > 维向量: r 关0, 
/• Bx >0 成立，以及 


Wdy 




且当 x = cB ~' d 时等号成立，定理得证. 


(证毕） 


定理 7 . 2 设 B 是/>阶对称矩阵， A ,= ch .( B ) 是 B 的第，•大的特征值，/, 
是相应于 A , ■的 fi 的标准化特征向量 G = i , x 为任一非零声维向量，那 
么有 


⑴ (7.5) 

上式右边等号当 x = ch 时成立，左边等号当 x ^ cl P 时成立，这里 f 是非零常数. 
(2) 记 Sf 2 = y (/ r+1 ，…，/,)，即％是由 / r +1 ， …，&张成的空间，则 

= （7 . 6) 

且当 r = c 4 +1 时达到最大值，这里 C 为非零常数. 
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证明 （1) 记尸 =(/ i ，…， 0), 它是正交矩阵，由§ 5中特征值和特征向量 
的性质6知 

B = 尸 diagA ， … ，心) 尸 

任给: rX )， 令 y ^ P ' x /^ y ( jyi ，… ^ y p y ，那么 y ： y = l ，而且 
X = ydiag(A lt — y X p )y = Xjy ] ， 

x x »-i 

于是 

K = K 2 y z * ^ 2 义 , 乂 2 < 义 1 2 ^ = 

«=! «=1 •=} 

上式右边等式当 ： y =( l ,0, …， oy 时成立，从而 

"1 

~7= = Py (I”… ， Ip ). 

"V x f X • 

-0 



即 x = c /,. 左边等式可类似证明 •（7. 5) 式得证 • 

(2) 如果工€父(/,+1，…， /；•) ，则4工=0 (/ = 1，…， r ). 因此 
y = P l x / * V x f x = (0，...，0，： y r + i ，一 * y P Y » 

p 

y'y = 2 乂 2 = 1， 

»'=r4-l 

= 2 以' 2 < 2 乂 2 = (+1 ， 

X X *=r+l «=r+l 

而且等号当 y =(0，...,0， l ，0,•••，()) 时成立，其中 1 在第 r + 1 位置上.同上可知 
此时1=<：4 +1 , (7. 6) 式 得证. （证毕） 

推论 7.1 设 A 为/>阶对称矩阵, B 为/>阶正定矩阵 ，片是 AS 一 1 的第/大 
特征值,是相应于 A , 的特征向量，那么对任一 维非零向量: r , 有 


^ x' Ax ^ 
VBx - 


上式右边等号当 X ^ ch 时成立，左边等号当 x = cl f 成立，这里 f 是非零常数. 


§8矩阵的微商和变换的雅可比行列式 

在通常的高等数学教程中，我们曾讨论过对自变量工分别为一元变量或 p 
维向量时它的函数 ： y =/ Gr ) 的微分表达 形式. 而在本节我们将把上述概念推广 
到: r 的函数: y (因变量)为一元变量或9维向量的各种情况 • 同时讨论当自变量 
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和因变量分别为相同维数的向量或者相同阶数的矩阵时有关变换的雅可比行 
列式. 


_、矩阵的微商 

我们将按自变量为一元变量或 f 维向量或/矩阵时分别讨论有关函 
数、向量函数及矩阵函数的微商表达形式. 

1. 自变置是一元变量 

(1) 若: v=(：vi， …，: 》)’ 是1的向量函数，则记裝 = ( 势，…，曾)为: y 对 

x 的导数向量. 一 ' 

(2) 若 F=FGr) 是I的矩阵函数，其中 r=( 凡)是 pXq 矩阵，那么 

4 X . = / 

dx \ dx I pXq 

是 y 对: r 的导数矩阵,它仍是 pX 9 矩阵. 


2 . 自变置是/>维向量 x =( xi ，…， x ,)' 

(1) 若: y =/ Gr ) 是; r 的一元函数，通过令 j：i , —. x ,-! , x, +i , — 为常数对 

^ 求导可求得: y 关于 A 的偏导数，记为或，此时: y 关于 x 的偏导数向 
量记为 ' 


3 / ( 3 / df \' 

(2) 若: y =(： yi， …， W 是向量 x 的 9 维向量函数， BP > = / i ( x ) (£ = 1，…, 
9 ) ，简记 y = f (^- 那么规定: y 关于 I 的诸偏导数构成的矩阵为 


_ 9 ^ _ ( 3 ^) _ . . 

也 ... 么 

dx,, dx,_ 

例如，若； y =(; yi ， …， W ， A 为 qXp 常数矩阵，令 : y = Ar , 则 

au ) ~ dx ~ A - 
又如，若设 B 为 P 阶方阵， X 是维向量，则 
dx f Bx 


( 8 . 1 ) 


( 8 . 2 ) 


特别，当 B 是对称矩阵时有 
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二、 矩阵变换的雅可比行列式 

下面研究变换的雅可比行列式，在多元分布的推导过程中常常在积分号下 
作变换，这时必须计算它的雅可比行列式. 

考虑积分 

… ，心 )(V C R^) , 

作变换: y*=/«(o：i，X2，.“，a>) (1==1广_，/>)，记夕=(: yi ，•••，％)'，则该变换可简记 
为3^=/(工)•当逆变换存在时,可记为工二厂 1 ^).由微积分知识知道，以上积分 
可化为 

y ) dy , (8.4) 

其中积分区域了二 {_y: y = f ( x ) ,x6 V}； 

(|A| + 表示行列式 |A| 的绝对值） 

■/Gc—：V) 称为变换的雅可比行列式. 

注意，上述变换中自变量工和因变量^有相同的维数. 

若 y=/(:r ), 计算时常用下列 公式： 

y ) = [J (y -► x)] 一 1 . (8. 5) 


§ 9 消去变换 

消去变换是通过对矩阵施行一些初等变换来计算矩阵的逆矩阵、广义逆矩 
阵，以及求解线性方程组的一种很有效的算法.特别在逐步回归和逐步判别的 
计算中，消去变换是完成变量筛选的一种非常巧妙的算法.消去变换在国外的 
文献上常常称为 Sweep (扫描)变换;也有人称为紧凑或原地求逆变换. 


一、 消去变换的定义 


定义 9. 1 设 A = (, aii \ Xm , 〜关0,令 

1 /«,•>* a = i，fi = j ， 

— a ^ i y ^ = j , 

b a p — ^ 

di^/^ij ♦ a — i y ^ j y 


(9.1) 


A a p — a a ja { p/a { j « a # i，p I j. 
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记矩阵 B =(6^)=7 VAM ， 并称 r , y G 4) 为对矩阵 A 施行以 ( D ) 为主元(或枢 
轴)的消去变换 . B 是对 A 施行(^)消去变换后得到的矩阵,简记为 B ^ jA ； 
当时，记 r , v 为 7 V 
矩阵 B 的形式 如下： 



其中 * 表示矩阵 S 中 UJ ) 位置的元素 bnr ，. 

U ij 

二、消去变换: T ,, 的基本性质 

性质 1 反身性 ： r ,/7 Vi = A . 

设 fLTVlAUt )， 4( 2 ) =7\^4⑴ A ( a y ))， 由 （9.1) 式可直接 验证： 

= a it (i = 1 ， 2, …，”;_/= 1 ， 2,… <m). 

性质 2 可交换 性：当 r ,/ r „ A =7 VT,A 

由 （9.1) 式可直接验证两边元素对应 相等. 

def t 

性质 3 若 W = A ( A 为对称矩阵），记 B ^ T kk A 一 ( b ) ，则 

f bkP — — 6 挣 ，^ ^ k y 

' b a p z= bpa y o k y ^ k. 

对对称矩阵 A 施行消去变换后，得矩阵 B . B 除第々行々列相差一个 
符号外，其余仍保持对称性，也称5为绝对对称矩阵. 

性质 4 行列置换与消去变换的次序变化的关系：设4为矩阵, 

为 i 行和/>行交换的行置换矩阵，^^为^列和9列交换的列置换矩阵，则 

(1) 7VAQ 为 ) = (7V4)Qw 

( 2 ) T l } (. P ip A )^ P ip ( T Pi A > >^ 
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(3) TijiPipAQ ^^ PipCT ^ A ^. 


性质 S 设4 


■^11 

：-^12 

^21 

： ^22 _ 


，^^为厂阶可逆矩阵，则 


Hi … ry = 


An 1 

W 


^22 ~ A 2 lAf 1 1 Ai2 _ 
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部分习题参考解答或提示 


习 




2-2 令 

(1) 因 CovCUOsO, 所以相互独立 . 

(2) =Xi+X 2 〜 iV (户 i + 户 2 ， 2(1 + 户 )^ 2 ); 

Y 2 = Xi — Xz 〜 Nifil — "2,2(1 — /0)< T 2 ). 

2-3 4- Y=X m +X l2> ,Z=X w -X m . 


⑴因 covcy.zhOw ，，所 以 x ⑴ +x( 2 ) 与 x (1> —x (2> 相互独立 . 
( 2 ) ■⑴ + X ⑵〜 JV〆 // ⑴+// 2 ) ， 2 ( 2 1 + 2 2 ))， 

Z = X M - X m - N P ^-^\2(. X ,- S 2 ')). 


2-4 (1 ) 条件分布分别为 


( H | X 3 ) 〜叫 

( X . lXz ^- N ^ 


户 1+ (I 3 一户 3)j° 
- 户 2+( 工 3 — 


_ 1 一， 

， P ~ P 2 


/ ^1 + — ^2 — » 


i-Ai ; 

l-\-p- 2 p z \ 
l-\~P I 


( 2 ) <? 12 .3 = ^( 1 —^). 


2-5 (Xi IX1+X2) 〜 ( j(:i+:2)，jj • 
2 6 ( 1 ) y =3 X ,-2 X 2+ X 3 - Ni (13,9). 


(2) 当 — •维向量 (fli ， a2)' 满足： a\-\-2az = 2 时， X3 与叉 3— a 1 

独立 . 


X ' 

ix 2 J 


相互 


2-7 利用定理 2. 3. 1 ，可得 （ 2),(3) 和 （ 4) 中这 3 对变量是相互独立的，而另两 
对不独立 . 


2-10 如取 A = 


2-11 E(X) = 


2 0 
1 0J 


，则 〜爪 (0,2). 


4 


,D(X) = 


L-i 


2 」 


2-12 (1) 提示：因兄〜 AT (0，1), 对任意 工(1>-1) 都有: 


P{— 1 <i Xi ^ X} ^ P { — X X\ <C1) y 

由此还可得出，对任给: r 2 e ( — 1 ， 1 )，有 

P{Xz ^ x 2 ) = P{X 2 ^一 1} + 尸 { — 1< 叉 2< 工 2} 

= P{X, <一 1} + 尸 {-: 2 < 叉 1 <1}=- 
^P{X 1 <X 2 ). 

(2) 提示： 考虑不，义 2 的线性函数兄一 X 2 , 并说明7不是正态分布 
的（因 P {| y |=0}= P {| X ,|> l > = 0. 3174). 

2-15 i =丄^"! ( X (») — / i 。）（ X (,)—//<>)’• 

n *=i 

2-19 样本均 值又= (68. 1,46.5,32.29)，, 

' 42.9 

样本离差阵 A 


17. 5 34. 5 
7.41 5.55 55. 709 」 
r 4. 7667 


样本协方差阵= = 


一 1.9444 3. 8333 

> 1. 9344 0. 6167 6. 1899 」 


样本相关阵 


-0.4549 1 


0. 1266 


习题 


w ^i0n T2 — 亂 ㈠ )，其中 


T^Cn-DnCCX-ryCCAC'J-'iC^-r), 
又 4=t ； (X w — 又 )(X«>— 又 )' 为样本离差阵 • 


3-7 F= 


n-p+l t z^L + 其中 


:(«- l )( / —1). 


又 A 为样本离差阵 . 
3-8 Hm (^< = O2 ，其中 C= 
可得 


T 2 =( n - l )»( CX ) , [ C ^ C , ] _ ' C ^. 


1 0 
0 1 


. 由男婴测量数据 (/> = 3 ，《 = 6 )计算 


T 2 = 47. 1434, F = 18. 8574, p = 0. 009195 < o = 0. 05 ， 
故否定 H 。 . 即认为这组数据与人类的一般规律不一致 . 




»r»2 r- <-»-i 1 n 77* _1 A f\00 m. - 


44 * t r 妨 
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3- 12 (1) M=24. 5240,^=0. 4424,^ 2 = 13. 6755. H p = Q , 3219>a=0. 05,故 

H。 相容. 

(2) T 2 =134. 8155, F = 32. 09894. 因/ > = 0. 0010830=0. 05,故否定 
//。，即4和5地区岩石的化学成分有显著差异. 

(3) 厶=0. 01604, F= 18. 3903. H / > = 2. 345 X 10 _6 <a = 0. 05,故否定 
// 0 ,即和 C 三个地区岩石的化学成分有显著差异. 

(4) V=0. 7253,f=-Mny=3. 2650. H /> = 0. 3525>a ，故 H 0 相容，可认 
为三种化学成分相互独立. 

习题四 

4- 1 (1) <2 = -^-(jyi + 2^ 2 -f ^2 + 2^ 3 ). 

(2) 似然比统计量为 



其中 —2 a + 幻 2 +(： y 3 - d -2 h 2 ] ; 当 //。成立时，若 

记 a =6 = fl 。， 则 +52 + 3)3) ，且 

a o = y[(^i - a o y + (y 2 - a o y + (^3 - 3a 0 ) 2 ], 

因此与 似然比 统计量 A 等价的 F 统计量及分布为 

F = 充_1^2〜川，1)(在 H。 成立时 )• 

4 -2 卜 ( c ’ cr ' CY , a 2 = i ( y - c ^> , ( y ^ c i &). 

4-3 (1) ^=-106. 7267+3. 2518^+1. 3313 x 2 ~0. 6747 x 3 , 

R z =0. 9909, s z =(2. 4416) 2 . 

(2) —30. 0098+0. 02672: cf +0. 03130 a X ： r 2 ; 

R 2 = 0. 9896, 5 2 = 5. 43596. 

4-4 (1) OXY = 102. 2383 — 0. 2199 age — 0. 07238 weight — 2. 6805 time 

-0. 0008442 spulse - O . 3732 rpulse + 0. 3047 mpulse , R 2 = 0. 8480, 
s =2. 3221. 

(2) 当 tf =0. 05 时， OXY =82. 4218-3. 3106 time ( R 2 = o . 7434). 

当 tf =0. 15 时， 

OXY =98. 1479 — 0.1977 age — 2. 7676 time — 0. 3481 rpulse 
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+ O. 2705 mpulse ( R 2 = 0. 8368). 

(3) OXY = 102. 2043 — 0. 2196 age — 0. 07230 weight - 2. 6825 time 
一 0. 3734 rpulse-h0. 3049 mpulse (修正 R 2 = 0 . 8176). 

4'10 逐步回归的结果 15): 

f 1 = -33. 8629-1. 7261 x 2 + 0. 9546^ + 194. 6098 i 7 (/? 2 = 0. 8621)； 

y 2 = -6.1372-1. 6982 x 4 + 0. 00429 x 6 ( R 2 ^ 0 . 9287). 

用双重筛选逐步回归，当筛选因变量和筛选自变量的临界值 F X = Fy = 3 
时，两个因变量分为两组，且各组的回归方程同以上逐步回归的结果. 


习题五 


5-1 P(2|l)=P(l|2) = l-^( - 

5-2 (1) 当 x=2. 5时，因 <if(x) = l， 名 (x) = l. 5625，<i!Cr) = 0. 25,故 ■r€G3. 

(2) 按贝叶斯准则（即广义平方距离准则），因 D〖Cr)= —0. 3863，D〗Or) = 
2. 9488,03(x) = 0. 25,故 ar€G,. 


(1) 费希尔线性判别函数为 《(:r) : 


：(32 X, + 33 X 2 )， 判别准则 


4. 2964). 


当 X (I y 
当 X (2 y 


f 判； fGG〗， 当《(幻>«*, 

(其中 M * =_ LzgeG- 

bjxeGz， 当 《a)<〆 

= (20,20)， 时，因 a(X ⑴） =—4. 3390<a* ，故判 X W € G 2; 
= (15,20)' 时，因 u ( X m ) = - 3 . 8050>〆，故判 X^eG】. 


(2) 按贝叶斯准则，考虑比值(其中 jS=(15,20)') 

To ^ { - (X ~ 奸芝― 1 ("⑴ — ，)>_ 
当 X⑴=(20,20)，时，因 W=7.5 exp(125/54) = 75.9229>l， 故判 

X<]>6G2i 

当 X«)=(15,20)' 时，因 W = l . 5>1，故判 X®eG 2 . 

(3) 当： r=(20,20) ，时， 尸 (l|x) = 0.7306, P(2|x) = 0. 2694. 

5 6 P(1|2)=P(2|1) = 1 - <f( y) ，其中 </ 2 =(" ⑴一广)’2- U,-〆 2 )). 


5-7 距离判别 准则： 


( 判 xec ,, 当取 ( x)>o 时^ 
1 判 xec 2 ， 当 w ( x )< o 时， 
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贝叶斯判别 准则： 

| 判 xgg " 当 w ( x)>d 时， 
j 判 XeG 2 ， 当 w (；0 <d 时， 

其中 <f = ln “ (1 丨 2) 

在两个总体且协方差阵相等时两种判别准则形式很相似；当 91=92 , 
L (1|2)= L (2|1) = 1 时， rf =0, 这表明在先验概率相等、错判损失均取为工 
时， 这两种判别准则是等 价的. 

下一步可引入变量 X〆 因 F 统计量的值为 10. 6106,/><0. 01). 

(1) 两个三元总体均值相等的检验 结果： £»=3. 1977 , F = 3. 1089,/.= 
0. 0756<0. 10,故在显著性水平 a =0. 10时两总体的均值向量有显著差 
异(即讨论这两个三元总体的判别问题是有意义的). 

线性判别函 数为： 

y>=- 28. 7375 + 10. 3139 CU + 8. 9904 Ag + 16. 8578 Bi ， 

Y z =- 31.1105 + 13. 7895 Cu + 8. 2120 Ag + 11. 3311 Bi . 

判别结果为错判两个 观测： 含矿的第 6 号错判为不 含矿; 而不含矿的第 
13号错判为含矿. 

(2) 待判的样品被判为不含矿. 

I (1) 判别结果为错判了两个观 测：第 8号原属1类的观测被错判为2 
类;第9号原属3类的观测被错判为1类.待判的3个观测依次被判归 
为1,2,3类. 

(2) 经检验三个总体协方差阵不相等，用二次判别函数，判别结果为 17 
个观测全部判对;待判的3个观测依次被判归为1,1,3类. 

用逐步判别法，当引入和剔除的临界值 = 0. 18时，选出 x 2 和: r 4 ; 用 
这两个变量建立的线性判别函数判别的结果把第9号原属3类的观测 
被错判为1类;待判的3个观测依次被判归为1,2,3类. 

(1) 判别 结果： 14个监测点全部判对了. 

(2) 待判的两个单位(观测点）分别被判归为2,3 类. 


习题六 

6-9 A = 5 Bt, G? 5, = {x ( 0 } (t. = l ， 2 ， ... ， 5), W(5) = 0; 

是 = 4 日寸， Gj 41 = {x(o ,X( 2 )}, G,- 4> = {sc (i+ i)} (i = 2,3,4), W(4) = 0. 5 ； 

A = 3 时， G ] <3, = {x(i),x( 2 )}, GP={ar( 3> ， j ： w} ， G3 3> ={xcs)}, W(3) = 2. 5 ； 
是 = 2 时， G{ 2> = {x ⑴， x (2> } ， G2 2) = {x(3 )，：“)，：《)}， W(2) = 13. 1667; 


是 、 ⑴ - - - 

610 ⑴用类平 1 均法: 分:！^: 54 . 2 _ 

号为-类，第 4 号为-类，第 3 , 5 个麵结果簡：第^6 

的为% 定㈡;二:㉕:类的类平均法把 7 种 

类只有 U 系统聚类的 Ward 法分类II果;右 ^ 2 ，f 3, H, 第三 
也分为三类冬类含第类^=有不=7种微量元素 

6 "=聚3:==:=:;观用测:细分_4, 2 , 4 , 

-用系 S 聚类类的的类分平类 均结二 

7} ， {3,10,14,15} , {6,8,9, 测点分为四类: “， 2 , 

习题七 

71 从协方差關发得总体主成 分为. 

^ = 0.040 ^ + 0 . 999 ^ (Var(2i) = Ai = i 

以 Var ⑹ 4) ' 

从相关阵出发得总体主成分为：' 8386) - 
Zr =0. 707 X.-+0.707X/ (V„ (Zl . )==A 】. 叫 

= ZZ ' =0- 707 ^'-°- 707 X 2 * (Var(Z 2 - ) = A 2 * = 0 . 6) .’ 

7-2 ⑴ Z^VT/2X i+ VT /2X 2 (V ar(Zl)==Ai = 1+(0)! 

^^/ T /2 X,~VT /2 似 Var(Zz)==A 
⑵ 长轴的方向为 P 、， 

⑶ rr 为一而 • 

73 ⑵ 因域 】） =w[i 均，]，故第-主成分的贡献率为 

1 
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7-4 椭球的主轴方向为主成分的方向. 

7-5 总体主成 分为乙 =兄.《=1, 2,3); 三个主成分的方差分别为 4,4,2. 

7-6 当时,总体主成分为 

V 2 

Var ( Z 1 ) = A 1 = < r 2 (l + VT 其解释的方差比 

例为 

Z 2 =-^=( X l - X 3 ), V ar ( Z 2 )= A 2 =< r 2 , 其解释的方差比例为 

Z 3 = X , ~^ J X2+Xs , VaKZshAFAl - VTp ), 其解释的方差比 
例为 

7-7 总体主成分为 

Zi = ^-(Xi-hX2-hX 3 +X 4 ) > Var(Zi)=Ai=<r 2 -\-ff 12 -hffi 3 -h(Ti 49 
Zz= ~ (.Xi-^rXz—Xi~XO , Var(Z 2 ) = A 2 =<T 2 + fyi2~tfi3 —(Th » 

Zi = ^r{X\—Xz-\-Xz—X^) , Var(Z3) = A 3 ={r 2 —<7 12 +^i 3 —<Ti4» 


^ — X2—X3+X4) » Var(Z 4 ) = A 4 = (y 2 — <Ti 2 — <Ti3+^h. 

7-8 ( 1 ) bj=(xi v ，a 2 j， 

(2) ；0 的回归平方和 

m m 

Uj=(.n—l') 2 心 4 = (« — 1 ) y]p 2 (X jf Zt') = (n—l)vj- f 

t=i t=i 

不的残差平方和 Q ,= (« — l )( l - i 0); A 的决定系数 


R 2 j =^ j = XX ( U ). 

711 (1) 8 项指标若综合为三个主成分，可解释原变量信息的 86. 66%;若综 
合为四个主成分，可解释原变量信息的 94. 68%. 

(2) 按第一主成分得分由小到大对13个行业排的次 序为： 8,10,12,7, 
9,11,13,6,4,3,2,1,5. 

7-12 六项指标若综合为两个主成分，可解释原变量信息的 81. 24%;若综合为 
三个主成分,可解释原变量信息的91.38%. 

按第一主成分得分由小到大对16个地区农民的生活水平排的次序 
为： 山西，河北，河南，江西，内蒙，黑龙江，福建，安徽，山东，吉林，江苏， 
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辽宁，天津，浙江，北京，上海. 


习题八 

8-1 m=l 的正交因子模型为 

rX, = 0. 9^! + e 2 , 「 0.19 0 0 

^ -^2 ― 0. 7F\ + e 2 , D = 0 0. 51 0 

1 叉 3 = 0. 1 + e 3 ， - 0 0 0. 75 

8-2 (l)m=l 时因子模型的主成分解为 


[Xi = 

= 0. 8757 F ! + £!, 

"0. 2331 

0 

0 一 

卜= 

= 0.8312^ + e 2 , D = 

0 

0. 3091 

0 

' x 3 = 

= 0.7111 F , - f - e 3 * 

- 0 

0 

0. 4943 - 


Q(l) = 0. 1951. 

(2) m-2 时因子模型的主成分解为 

(Xi = 0. 8757F, - 0. 1802 尸 2 + e , ， 

-S X 2 = 0. 8312Fx - 0. 4048F 2 + e 2 * 

'X 3 = 0. 71116 + 0. 6951 尸 2 + e 3 , 

'0.2006 0 0 " 

D = 0 0.1453 0 , Q(2) = 0.06611. 

- 0 0 0.01122 - 

( 3 ) 因 Q(2)=0. 06611C0. 1 ，故 m = 2 的主成分解符合 要求 . 

84 提示 ：利用 样本协方差阵 5 的谱分解 式有： 

p 

S = == AA ! + BB ', 

f = l 

则 e= l S_GW+D)=fi^-D，m BB ， =E+D ， 故 

P 

2 ^ • • RB ')= tr [( E + D )( jB + DV ] 

i = m+i 

— Q ( m )+ y ^( g , 2 ) 2 . 

1=1 

8 6 因子分析（主成分解）的 结果： 取前 4 个公共因子可反映原始变量的 
89. 26% 的信息 . 由方差最大正交旋转后的载荷矩阵可得出，第一公共因 
子主要代表 X, 和 X 2 ; 第二公共因子主要代表 X 3 和 X 6; 第三公共因子主 
要代表 X,; 第四公共因子主要代表； f 5 . 

8-7 因子分析（主成分解）的 结果： 取前两个公共因子可反映原始变量的 


95. 86%的信息 ( A 1 = 3. 7526,4=1. 0402). 正交因子模型为 
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Xi = 0. 35049/^ + 0. 92792 F Z + e 1# 

Xz = 0. 97604^1 一 0. 09686/^2 + € 2, 

X 3 = 0. 93971^1 + 0. 23601F 2 + e 3 , 

X 4 = 0 , 93958^1 — 0. 23403 F 2 - f - e 4 * 

X 5 = 0 . 95461F! — 0 . 24363-^2 e s» 

变量的共同度为 

h \ = 0. 983876, M = 0. 962030, h \ = 0. 938752， 
h \ = 0. 937588, h \ = 0. 970640. 

8- 8 取前两个公共因子可反映原始变量的 73. 68%的信息 • 由因子载荷矩阵可 

看出，第一公共因子主要代表学生的总成绩;第二公共因子主要代表开、 
闭卷的成绩比较.由方差最大正交旋转后的载荷矩阵可得出，第一公共因 
子主要代表开卷的三门课的成绩;第二公共因子主要代表闭卷的两门课 
的成绩. 

习题九 

9- 1 (1) 因总 Z 2 统计量(为 3. 5891) 或总惯量(为 0. 7238) 的 86. 87% 可用前二 

维说明，这表示样品点和变量点用二维表示就可以了 • 

通过在同一坐标系上绘制8个样品点和6个变量点的散布图，可粗 
略地看出，变量点和样品点可分为三类： { 污染气体环己烷和 6}; { 污染气 
体环氧氯丙烷和 4,8}, { 污染气体氣，硫化氢, S0 2 , 碳 4 和 1,2,3,5, 7 }. 
9-2 (1) 因总 X 2 统计量(为 186. 561) 或总惯量(为 0. 04660) 的 92. 10% 可用前 
二维说明，这表示样品点和变量点用二维表示就可以了. 

通过在同一坐标系上绘制16个样品点（地区）和6个变量点（指标） 
的散布图,可粗略地看出，地区和指标可分为 五类： { 上海和 X 4( 住房） }; 
{ 北京，天津，山东和 X 5( 生活用品及其他）江苏,浙江和 Xl ( 食品 
{ 福建，江西，安徽和 X 3( 燃料）, X 6( 文化生活脤务支出） } s < 山西，内蒙，辽 
宁，黑龙江，河北，河南和 X 2( 衣着） }• 
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第一典型相关系数 p = -^ 0 . 7 -==0 - 9 0 3696 ;第一对典型 

V (1 + 0. 5) X ( l +0. 6) 


变 量为： ^1 = — f =( X !+ X 2 ), 
V 3 


V 3. 2 
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第一典型相关系数 fi =0. 62 M , 在《=0_ 01的水平下它是显著地不为零 
(似然比为0_ 5977, /. = 0. 0022 C 0. 01). 第一对标准化的典型变 量为： 

V 1 = 0. 6265 X , + 0. 5560 X 2 , 

H 7 . = 0. 8600 X 3 + 0. 501 8 X , - 0. 5060 X S . 

第一典型相关系数 ,0=0. 7885,在显著性水平 tt =0. 01时它是显著地不 
为零(似然比为 0. 3772, /. = 0. 0003 C 0. 01). 第一对标准化的典型变量 
为： 

V x = 0. 5522 X , + 0. 5215 X 2 , 

H^i = 0. 5044 X 3 + a 5383 X ,. 

第一典型相关系数 ,oi = 0. 8515. 它在显著性水平 a =0. 01时是显著地不 
为零(似然比为 0. 06119,/»<0. 0001), 第一对标准化典型变 量为： 

^ i = 0. 442 lXj + 0. 2669 X 2 + 0. 5884 X 3 + 0. 0614 X , + 0. 2217 X 5 
+ 0. 091 1 X 6 + 0.0138 X 7 , 

^1 = - 0 . 4266 X S + 0. 2335 X 9 + 0. 3696 X 10 + 0. 0038^„ 

- 0. 3560 X 12 . 

第二典型相关系数 p 2 = 0. 728 4 ,它在显著性水平 a =0. 01时是显著 
地不为零(似然比为 0. 2225, p =0. 005<0. 01): 

F 2 = — 0. 2087^! + 0. 7020 X 2 — 0. 2102 X 3 + 0. 0148 X 4 
一 0. 7263 X 5 - 0.1749 X 6 + 0. 2399 X 7 , 

W 2 = 0. 8255 X g + 1. 0 i 05 X s + 0.1982 X 10 + 0. 2218 X „ 

+ 0. 8101 X I2 . 

而后面的几个典型相关系数片《 = 3,… ，5) 在显著性水平 a =0. 01 
时可认为是 0. 
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主要符号说明 413 


x=(Xi ，…， x fi y 

X= ( 工 ,.)）”)^ 或 XnXp~ ( 工 fp 
X( a )= (x«i ，： r«2»H ， yX a p)' 

Xj= yXnjV 

R A 

E(X) 

D(X) 

Var(X) 

Cov(X,7) 

cov ( x , y ) 

Vec(X) 

Npifi.l) 

冗 2 ( u ) 或; d ⑻ 

t(fijS) 

FimyTlyd) 

Wpin.I：') 

T 2 (p,n) 

A(pytlym) 

OpXq 


主要符号说明 


声维随机向量 

«X 户随 机阵或 nX/> 观测数据阵 

来自/>元总体的第《次观测样品 

第 j 个变量的 n 维观测向量或得分向量 

/>维实向量空间 

随机向量X的均值向量 

随机向量X的协方差阵 

随机变量X的方差 

随机变量 _x •和 y 的协方差 

随机向量 x 和 y 的协方差阵，显然 covcx . x ) 

= D ( X ) 

用 nXjft 矩阵X的列向量：^，…, X A 依次连结成 
一个吵维长向量 

均值为户,方差为〆的一元正态分布 
均值向量为&协方差阵为2的元正态分布; 
若 _X •〜 A (户, 2) ，则 X为 p 维正态随机向量 
nX/> 矩阵正态分布 

自由度为 n， 非中心参数为 S 的炉(卡方)分布; 
当占=0为中心/分布 

自由度为 n， 非中心参数为5的非中心 t 分布;当 
5=0为中心《分布 

自由度为抓，《，非中心参数为的 F 分布；当 
占=0为中心的 F 分布 
参数为声，的威沙特 (Wishart) 分布 
参數为 p，n 的霍特林 (Hotelling) T z 分布 
参数为/>，》和 wi 的威尔克斯 (Wilks) 分布 
户 Xg 零矩阵 


^>0 

A^O 

IAI 

IAI + 

tr(A) 

rank(^4) 

1,= (1，1，…， 1)' 
0声=(0,0，“.，0)’或0 

dA ] B) 

ch,(A) 

,lp) 

J (a—*-_y) 


A 为对称正定方阵 
A 为对称非负定方阵 
方阵4的行列式 
方阵4行列式的绝对值 
方阵4的迹 
矩阵4的秩 

元素全部为1的 n 维常向量 

元素全部为0的/>维零向量，当零向量的维数显 

然，简记为0 

” X /> 矩阵4和 „ X 9 矩阵 B 合并为一个 „X(> 
+9) 的矩阵 

方阵4的第/大特征值 

由向量/,，••• 4张成的空间 

/>维向量 x 到/ > 维向量^变换的雅可比行列式 



索 引 

(按拼音字母顺序） 


A 

和 W 2 统计量检验法 
AIC 统计量 
按批修改法 

B 

BIC 统计量 
巴特莱特因子得分 
半偏庐统计量 
贝叶斯 (Bayes) 判别的解 
贝叶斯判别准则 
备择假设 
边缘分布 
变量分类 
变量间的距离 
变量间的相似系数 
变量聚类方法 
变量判别能力的度量 
变量判别能力的检验 
变量筛选法 
标准差矩阵 

标准差 a 的估计量 (Root MSE) 

标准化变换 

不配对 

不相关 

C 

CANCORR 过程 


97 

125 

248 


125 

313 

241 

187 

187 

70 

17 

281 

226 

224 

259 

202 

204 

119 

20 

116 

220 

224 

20 


358 


CLUSTER 过程 

231 

CORRESP 过程 

336 

统计量 

124 

选择法 

120 

残差 

136 

残差平方和 

109 

残差阵 

136 

初始分类 

246 

错判概率 

180 

错判损失 

186 

D 

DISCRIM 过程 

182 

单调性 

237 

等概椭圆检验法 

98 

等髙线图 

28 

第是对(组)典型相关变量 

345 

第是个典型相关系数 

345 

第二类错误 

56 

第一对(组)典型相关变童 

344 

第一个典型相关系数 

344 

第一类错误 

56 

点相关系数 

227 

典型结构 

351 

典型冗余分析 

361 

典型相关系数的显著性检验 

356 

定量变量 

218 

定性变量 

218 

动态聚类法 

246 
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独立性检验 

92 




对称矩阵的拉直运算 

35 


G 


对称幂等矩阵 

52 

功效函数 


56 

对立假设 

70 

公共因子 


295 

对数变换 

220 

公因子方差 


298 

对应变换 

329 

公因子向童 


308 

对应分析方法 

324 

贡献率 


271 

对应阵 

327 

共同度 


297 

多对多回归 

105 

关于先验概率的平均损失 

187 

多因变量的多元线性回归模型 

130 

广义方差 


63 

多元方差分析 

80 

广义平方距离 


184 

多元密度函数(或密度函数） 

17 


H 


多元线性回归模型 

130 



多元正态分布 

22 

行轮廓分布 


332 


二次判别函数 
二次型 

二元正态分布 
二值变量的列联表 


FACTOR 过程 

FASTCLUS (快速聚类)过程 

F 统计量 

方差加权距离 

方差最大的正交旋转 

非中心 F 分布 

非中心£分布 

非中心 Z 2 分布 

费希尔 ( Fisher ) 判别 

分裂样本 (Split-Sample) 交叉验证 

分批交叉验证方法 

否定域 

复相关系数 

附加信息检验 


行轮廓坐标 
行形象分布 
合并样本协方差阵 
后验概率(条件 概率） 

回归 

回归方程的显著性杨验 
回归平方和 
回归系数 

回归系数的显著性检验 
回判结果 

霍特林 (Hotelling)7^2 分布 


309 J P 统计量 
56 极差 

56 极差标准化变换 
52 极差正规化变换 
192 极大似然法 
373 夹角余弦 
373 检验集 
66简单结构准则 
116 交叉乘积阵 
204 交叉确认法 
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经典多元线性回归分析 ( MLR ) 

369 

连续型随机向量 


17 

经典多元线性回归模型 

106 

两阶段密度估计法 ( TWO ) 

236 

矩阵的直积 

35 

两组变量的相关关系 

343 

矩阵正态分布 

36 

列联表 


226 

距离判别 

176 

列轮廓分布 


332 

距离最近准则 

178 

列轮廓坐标 


333 

决定系数 

116 

列形象分布 


332 

绝对值距离 

221 

临界值 


66 

均方误差 

110 

零假设 


70 

均值向量 

19 

轮廓图 


9 

均值向量的检验 

76 


M 


K 


McQuitty 相似分析法 ( MCQ ) 

234 

科尔莫戈罗夫 ( Kolmogorov ) 检验法 

96 

马氏距离 


177 

可变法 

234 

密度估计法 ( DEN ) 


236 

可变类平均法 

234 

名义变量 


218 

可加性 

59 

闺科夫斯基 ( Minkowski ) 距离 

221 

可能回归子集 

120 

模型的自由度 


110 

克罗内克 (Kronecker ) 积 

35 

模型均方 


110 

空间的浓缩与扩张 

237 

模型效应权重 


371 

L 



N 


拉格朗日乘子法 

194 

凝聚点 


246 

拉直运算 

35 


O 


兰氏距离 

222 



雷达图 

10 

欧氏距离 


221 

累计贡献率 

271 


P 


累计判别能力 

195 



类的特征 

239 

P - P 图检验法 


96 

类的直径 

253 

PLS 过程 


374 

类目 

223 

PRESS 统计量 


125 

类平均法 

234 

PRINCOMP 过程 


278 

离差平方和法 ( WARD ) 

235 

/>维正态随机向量 


22 

联合分布函数 

17 

p 元正态分布 


22 

联立置信区间 

73 

户值 


67 

联列系数 

227 

判别归类 


210 

连关系数 

227 

判别能力 


195 
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判别系数 
判别系数向量 
判别效果的检验 
皮尔逊 ( Pearson )# 检验法 
匹配系数 
偏及 2 

偏峰检验法 
偏回归平方和 
偏相关系数 

偏最小二乘回归分析 ( PLS ) 
平方根矩阵 
平方和分解公式 
谱系聚类图 


Q - Q 图检验法 
Q 型因子分析 
奇异值 
奇异值分解 
切比雪夫距离 
球性检验 


179 S P 统计量 
179 散布图 
199 散布图矩阵 
96 筛选因变量 
224 筛选自变量 
127 舍一法 
96 舍一交叉验证方法 

113 剩余标准差 

33剩余方差 
369剩余平方和 
21属性变量 
109 双向频数表 
229 双重筛选逐步回归 

四分相关系数 
似然比统计量 
96 似然函数 

318 随机样本交叉验证方法 

330 随机阵 

331 损失函数 


全相关系数 


33 

T z 区间 

75 

全子集法 


121 

T 2 统计量 

64 


R 


汤普森 ( Thompson ) 因子得分 

315 



特殊方差 

299 

REG 过程 


115 

特殊因子 

295 

R-Q 型因子分析 


324 

特征函数 

22 

R 2 统计量 


241 

条件分布 

18 

於选择法 


120 

条件极值问题 

194 

R 型聚类分析 


217 

条件期望 

33 

R 型因子分析 


294 

调和曲线图 

11 

冗余测度 


362 

调优法 

217 


S 


统计距离 

221 



投影 

192 


SAS/STAT 软件 
SAS 系统 
SBC 统计量 


125 


VARCLUS (变量聚类)过程 


261 
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W ( Wilks ) 检验和 D 检验 
威尔克斯 ( Wilks ) 分布 
威尔克斯 A 统计董 
威沙特 ( Wishart ) 分布 
伪 F 统计量 
伪 P 统计董 
无偏性 
无偏估计量 
误差标准差 
误差的自由度 


修正 R 2 选择法 
选回归模型 
96 训练样本 

64 Y 

63 

57 样本 
242 样本标准差 
242 祥本的似然函数 
43样本典型变量的得分值 
136 样本典型相关变量 
147 样本典型相关系数 
110 样本方差 

样本广义方差 
样本均值 


系统聚类法 

217 

系统评估 

285 

先验概率 

184 

显著性概率值 

67 

显著性水平 

56 

线性回归模型 

131 

线性判别函数 

179 

相关性检验 

110 

相关阵 

20 

相合性 

44 

相互独立 

19 

相似系数 

223 

向后剔除法 

119 

向前引入法 

119 

项目 

223 

消去变换 

154 

协方差 

19 

协方差结构 

297 

协方差阵 

19 

协方差阵的检验 

85 

斜交公因子 

312 

斜交空间距离 

222 

斜交因子模型 

312 


44样品排序 
19 一个划分 


阈值点 

原总体 X 的总方差 
原假设 
约相关阵 


载荷矩阵 

正规方程 

正交旋转 

正交因子模型 

正态随机向量的二次型 

正态性检验 

直观判别法 

指标分类 

置信度 

置信域 

中间距离法 

中心化变换 

重心法 

逐步回归法 

逐步聚类法 

逐步筛选变量 

逐步筛选法 

逐个修改法 

主成分 

主成分法 

主成分分析 

主成分回归 

主成分回归分析 ( PCR ) 
主成分检验法 
主成分解 
主分量分析 
主因子解 


主轴分析 

265 

总变差的百分比 

360 

总变差的累计百分比 

360 

总惯量 

332 

总偏差平方和 

81 

组间偏差平方和 

81 

组间离差阵 

82 

组内偏差平方和 

81 

组内离差阵 

82 

组内协方差阵 

178 

最长距离法 

232 

最大 V 增量法 ( MAXR ) 

121 

最大似然估计 

38 

最大似然谱系聚类法 ( EML ) 

236 

最短距离法 

232 

最佳预测 

34 

最小/? 2 增量法 ( MINR ) 

121 

最小二乘估计量 

107 

最小方差线性无偏估计量 

107 

最优分割法 

253 

最优回归子集 

129 

“3 a ” 原则检验法 

97 

“拉直”后的模型 

132 

“帽子”矩阵 

107 

“最优”回归方程 

114 

0—0 配对 

224 

1—1 配对 

223 

分布 

64 

4统计量 

64 

: C 2 检验法 

96 

: t 2 统计量 

332 



